- tinygradは、シンプルさと性能を兼ね備えたニューラルネットワークフレームワークで、最小限の演算構造で複雑なモデルを実装
- これを基盤とするtinyboxは、ディープラーニングの学習と推論のための高性能オフラインAIコンピュータで、red・green・exaの3モデルを展開
- 上位モデルのgreen v2 blackwellは、4基のRTX PRO 6000 GPUで3086 TFLOPSの性能を発揮し、$65,000で即時出荷可能
- 最上位のexaboxは、約1 EXAFLOPの性能を目標に2027年発売予定で、約1,000万ドルの価格帯
- メーカーのtiny corpは、petaflopの商用化とすべての人のためのAIの実現を目標としている
tinygrad 概要
- tinygradは、シンプルさと性能を重視するニューラルネットワークフレームワークで、急速に成長しているプロジェクト
- 複雑なネットワークをわずか3種類のOpTypeで構成: ElementwiseOps、ReduceOps、MovementOps
- ElementwiseOpsは1~3個のテンソルに対して要素単位の演算を行い、SQRT、LOG2、ADD、MUL、WHEREなどを含む
- ReduceOpsは1つのテンソルを入力として受け取り、より小さなテンソルを返し、SUM、MAXなどがある
- MovementOpsはデータをコピーせずに移動させる仮想演算で、ShapeTrackerを使ってRESHAPE、PERMUTE、EXPANDなどを実行
- CONVやMATMUL演算の実装はコード内で直接確認可能
tinybox 製品ラインアップ
- tinyboxはディープラーニング向けの高性能コンピュータで、red、green、exaの3モデルで構成
- 各モデルの主な仕様は以下の通り
-
red v2
- GPU: 4x 9070XT
- FP16(FP32 acc)性能: 778 TFLOPS
- GPU RAM: 64GB、帯域幅 2560 GB/s
- CPU: 32コア AMD EPYC
- システムRAM: 128GB、帯域幅 204.8 GB/s
- ディスク: 2TB NVMe、読み取り速度 7.3 GB/s
- ネットワーキング: 2x 1GbE + OCP3.0
- 電源: 1600W
- 騒音: 50dB未満
- 価格: $12,000、即時出荷可能
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- FP16(FP32 acc)性能: 3086 TFLOPS
- GPU RAM: 384GB、帯域幅 7168 GB/s
- CPU: 32コア AMD GENOA
- システムRAM: 192GB、帯域幅 460.8 GB/s
- ディスク: 4TB RAID + 1TB ブート用、読み取り速度 59.3 GB/s
- ネットワーキング: 2x 10GbE + OCP3.0
- 電源: 2x 1600W
- 騒音: 65dB(10mの距離基準)
- 価格: $65,000、即時出荷可能
-
exabox
- GPU: 720x RDNA5 AT0 XL
- FP16(FP32 acc)性能: 約1 EXAFLOP
- GPU RAM: 25,920GB、帯域幅 1244 TB/s
- CPU: 120x 32コア AMD GENOA
- システムRAM: 23,040GB、帯域幅 55.2 TB/s
- ディスク: 480TB RAID、読み取り速度 7.1 TB/s
- ネットワーキング: PCIe5 3.2 TB/s 拡張をサポート
- 電源: 600kW
- サイズ: 20x8x8.5 ft、重量 20,000 lbs
- 発売予定: 2027年、予想価格 約$10M
- すべてのモデルはUbuntu 24.04オペレーティングシステムを使用し、スタンドアロンまたはラックマウント型で設置可能
- 製品および在庫の更新はメーリングリストで提供
FAQ
-
tinybox 概要
-
ディープラーニング向けの高性能コンピュータ**で、**コストパフォーマンスが非常に高い
- MLPerf Training 4.0ベンチマークで10倍高価なシステムと比較テスト済み
- 学習だけでなく**推論(inference)**も実行可能
-
注文と配送
- Webサイトで注文可能で、決済後1週間以内に発送
- サンディエゴでの現地受け取りまたは世界中への配送に対応
-
カスタマイズと決済
-
価格と品質維持のためカスタマイズ不可
- 支払いは電信送金(wire transfer) のみ対応
- W-9フォームはダウンロードリンクで提供
-
tinygrad の用途
- openpilotでSnapdragon 845 GPUベースの走行モデル実行に使用
- Qualcomm SNPEを置き換え、より高速で、ONNXローディング、学習サポート、attention機能を提供
-
機能と性能
- 推論専用ではなく、autodiffベースのforward/backwardパスの両方をサポート
- PyTorchに似たAPIを提供するが、構造はよりシンプル
- アルファ版のため安定性は低いが、最近は比較的安定
- PyTorchより2倍高速な論文再現が可能になった時点でアルファ段階を終了する予定
- 高速化の要因
- 各演算ごとにカスタムカーネルをコンパイルして形状ごとに最適化
- lazy tensor構造により演算を積極的にfusion
- 簡潔なバックエンドによりカーネル最適化時に全体性能が向上
-
開発とコミュニティ
- 開発はGitHubとDiscordで進行中
- tinygradへの貢献(PR) は採用や投資参加の主要な経路と見なされている
- tiny corpの目標はpetaflopの商用化とすべての人のためのAIの実現
1件のコメント
Hacker Newsの意見
このWebサイトがAIではなく人の手で作られたように感じられるのが、なんとも皮肉に思えた
デザインも文章のトーンもとても人間的
それでもアイデアは素晴らしく、こうしたローカル学習型モデルが大企業のモデル依存を減らす未来になると思う
ただ、240V回路にそのまま接続できるとよかった。2本の120V回路を探さないといけないのはかなり面倒
業界の人たちはシグナルとノイズを見分けることに敏感だからだと思う
おそらく質の低いPRは丁寧に無視できる程度に量が少なく、生成方法そのものは重要ではないのだろう
ベースモデルが1万2千ドルとは高すぎる
自分はApple M3 Max(128GB RAM)で120Bパラメータモデルを80W消費電力、毎秒15〜20トークンで動かしている
完璧ではないが、1万2千ドルの機材よりはましだと感じる
それでgpt-oss-120b Q8を毎秒30トークン前後で回せる
red v2で120Bモデルをまともに動かせるはずがない
自分はdual A100 AI homelabを自作していて、80GB VRAMをNVLinkで束ねている
120Bモデルは強い量子化なしでは無理で、そのレベルだとモデルが不安定になる
KVキャッシュ用の空きも足りず、4kコンテキストあたりでOOMになる
今70Bモデルを動かしていてもギリギリだ。自分の機材のほうがred v2よりVRAMが16GB多い
それに、なぜ12Uなのかも分からない。自分のリグは4Uだ
green v2はGPUがましだが、6万5千ドルならCPUとRAMももっと良くあるべきだ
存在自体は歓迎だが、正直構成比率が理解できない
自分はEpyc Milanボックスでgpt-oss-120b Q4をRAMとGPUに分けて回しており、毎秒30〜50トークンくらい出る
64G VRAM/128G RAM構成は非効率だ。MoEモデルでもルーターには20B程度しか必要なく、残りのVRAMは無駄になる
「価格を下げて品質を維持するため、サーバーサイズのカスタマイズは提供しません」といった返答なのだと思う
自分は8 GPUサーバー(RTX 8000が5枚、RTX 6000 Adaが3枚)を使っているが、通常の推論用なら8000でも十分だ
greenモデルのほうが速いのだろうが、2万5千ドルの追加コストは納得できない
Blackwell 6000が4枚で3万2千〜3万6千ドルなのに、残りの3万ドルはどこに消えたのか分からない
一部のローカルAIフレームワークは、VRAMの一部だけをキャッシュに使うLRUポリシーをサポートしていて、オーバーヘッドも許容可能だ
exaboxが興味深い
誰が顧客になるのか気になる。Vera Rubinの発表映像を見たあとでは、NVIDIAとハイパースケール市場で競争しようとするのは想像もつかない
おそらくコストパフォーマンス重視のMLスタートアップを狙っているのだろう
実際に価格を見ると、Vera RubinがGPU RAMあたりほぼ半額だ
NVのインターコネクト品質には及ばないだろうが
誰がこれを買うのか分からない。NVはすでに出荷しているのだから
その隙間を狙えば競争は可能だ。市場シェアが0.01%未満なら大企業も気にしないだろう
これは新しい暗号資産マイナーみたいなものなのかと思った
以前はマイニング用ハードウェアを売っていて、今はAI向けとして売っているような感じだ
Tinyboxはかっこいいが、市場はおそらく「Kimi 2.5を毎秒50トークンで動かせる」といった明示的な性能保証つき製品をより求めると思う
Decoy effectという概念を思い出した
この機材は冷却をどう処理しているのか気になる
tinygradの「pytorchより2倍速くなったらアルファを脱する」という条件について
pytorchがどんなワークロードでハードウェア比2倍以上遅いのか、具体的な説明が必要だ
ほとんどの論文は標準コンポーネントを使っており、pytorchはすでにGPU性能の50%以上を引き出している
もしカスタムカーネルを書かないと性能が出ない特殊なケースの話なら、それは別問題だ
なぜ6 GPU構成をやめたのか分からない
4 GPU(9070、RTX6000)は2スロット設計なので、一般的なマザーボードでも構築可能だ
6 GPUはライザー、PCIeリタイマー、デュアルPSU、カスタムケースが必要で複雑になるが
それでもコストパフォーマンスはより良かったと思う