6 ポイント 投稿者 GN⁺ 2026-03-22 | 1件のコメント | WhatsAppで共有
  • tinygradは、シンプルさと性能を兼ね備えたニューラルネットワークフレームワークで、最小限の演算構造で複雑なモデルを実装
  • これを基盤とするtinyboxは、ディープラーニングの学習と推論のための高性能オフラインAIコンピュータで、red・green・exaの3モデルを展開
  • 上位モデルのgreen v2 blackwellは、4基のRTX PRO 6000 GPUで3086 TFLOPSの性能を発揮し、$65,000で即時出荷可能
  • 最上位のexaboxは、約1 EXAFLOPの性能を目標に2027年発売予定で、約1,000万ドルの価格帯
  • メーカーのtiny corpは、petaflopの商用化とすべての人のためのAIの実現を目標としている

tinygrad 概要

  • tinygradは、シンプルさと性能を重視するニューラルネットワークフレームワークで、急速に成長しているプロジェクト
  • 複雑なネットワークをわずか3種類のOpTypeで構成: ElementwiseOpsReduceOpsMovementOps
    • ElementwiseOpsは1~3個のテンソルに対して要素単位の演算を行い、SQRT、LOG2、ADD、MUL、WHEREなどを含む
    • ReduceOpsは1つのテンソルを入力として受け取り、より小さなテンソルを返し、SUM、MAXなどがある
    • MovementOpsはデータをコピーせずに移動させる仮想演算で、ShapeTrackerを使ってRESHAPE、PERMUTE、EXPANDなどを実行
  • CONVやMATMUL演算の実装はコード内で直接確認可能

tinybox 製品ラインアップ

  • tinyboxはディープラーニング向けの高性能コンピュータで、redgreenexaの3モデルで構成
  • 各モデルの主な仕様は以下の通り
    • red v2

      • GPU: 4x 9070XT
      • FP16(FP32 acc)性能: 778 TFLOPS
      • GPU RAM: 64GB、帯域幅 2560 GB/s
      • CPU: 32コア AMD EPYC
      • システムRAM: 128GB、帯域幅 204.8 GB/s
      • ディスク: 2TB NVMe、読み取り速度 7.3 GB/s
      • ネットワーキング: 2x 1GbE + OCP3.0
      • 電源: 1600W
      • 騒音: 50dB未満
      • 価格: $12,000、即時出荷可能
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • FP16(FP32 acc)性能: 3086 TFLOPS
      • GPU RAM: 384GB、帯域幅 7168 GB/s
      • CPU: 32コア AMD GENOA
      • システムRAM: 192GB、帯域幅 460.8 GB/s
      • ディスク: 4TB RAID + 1TB ブート用、読み取り速度 59.3 GB/s
      • ネットワーキング: 2x 10GbE + OCP3.0
      • 電源: 2x 1600W
      • 騒音: 65dB(10mの距離基準)
      • 価格: $65,000、即時出荷可能
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • FP16(FP32 acc)性能: 約1 EXAFLOP
      • GPU RAM: 25,920GB、帯域幅 1244 TB/s
      • CPU: 120x 32コア AMD GENOA
      • システムRAM: 23,040GB、帯域幅 55.2 TB/s
      • ディスク: 480TB RAID、読み取り速度 7.1 TB/s
      • ネットワーキング: PCIe5 3.2 TB/s 拡張をサポート
      • 電源: 600kW
      • サイズ: 20x8x8.5 ft、重量 20,000 lbs
      • 発売予定: 2027年、予想価格 約$10M
      • すべてのモデルはUbuntu 24.04オペレーティングシステムを使用し、スタンドアロンまたはラックマウント型で設置可能
      • 製品および在庫の更新はメーリングリストで提供

FAQ

  • tinybox 概要

    • ディープラーニング向けの高性能コンピュータ**で、**コストパフォーマンスが非常に高い

      • MLPerf Training 4.0ベンチマークで10倍高価なシステムと比較テスト済み
      • 学習だけでなく**推論(inference)**も実行可能
  • 注文と配送

    • Webサイトで注文可能で、決済後1週間以内に発送
    • サンディエゴでの現地受け取りまたは世界中への配送に対応
  • カスタマイズと決済

    • 価格と品質維持のためカスタマイズ不可

  • tinygrad の用途

    • openpilotSnapdragon 845 GPUベースの走行モデル実行に使用
    • Qualcomm SNPEを置き換え、より高速で、ONNXローディング学習サポートattention機能を提供
  • 機能と性能

    • 推論専用ではなくautodiffベースのforward/backwardパスの両方をサポート
    • PyTorchに似たAPIを提供するが、構造はよりシンプル
    • アルファ版のため安定性は低いが、最近は比較的安定
    • PyTorchより2倍高速な論文再現が可能になった時点でアルファ段階を終了する予定
    • 高速化の要因
      • 各演算ごとにカスタムカーネルをコンパイルして形状ごとに最適化
      • lazy tensor構造により演算を積極的にfusion
      • 簡潔なバックエンドによりカーネル最適化時に全体性能が向上
  • 開発とコミュニティ

    • 開発はGitHubDiscordで進行中
    • tinygradへの貢献(PR) は採用や投資参加の主要な経路と見なされている
    • tiny corpの目標petaflopの商用化すべての人のためのAIの実現

1件のコメント

 
GN⁺ 2026-03-22
Hacker Newsの意見
  • このWebサイトがAIではなく人の手で作られたように感じられるのが、なんとも皮肉に思えた
    デザインも文章のトーンもとても人間的
    それでもアイデアは素晴らしく、こうしたローカル学習型モデルが大企業のモデル依存を減らす未来になると思う
    ただ、240V回路にそのまま接続できるとよかった。2本の120V回路を探さないといけないのはかなり面倒

    • AI関連の文章で本当に尊重されるものは、たいていAIが書いた痕跡がほとんどない
      業界の人たちはシグナルとノイズを見分けることに敏感だからだと思う
    • 「Invest with your PRs」としてコード貢献を公開で受け付けているのに、AI生成コードに関するポリシーがないのは不思議だった
      おそらく質の低いPRは丁寧に無視できる程度に量が少なく、生成方法そのものは重要ではないのだろう
    • 6万5千ドルの機材を買う人にとって、回路を2本探すのは些細な問題だろう
    • 実際、米国の240V回路は120Vを2本束ねたものなので、再配線はそれほど難しくない
  • ベースモデルが1万2千ドルとは高すぎる
    自分はApple M3 Max(128GB RAM)で120Bパラメータモデルを80W消費電力、毎秒15〜20トークンで動かしている
    完璧ではないが、1万2千ドルの機材よりはましだと感じる

    • M3 Maxのtflops性能は12kのボックスと比べものにならないほど小さい
    • こういう機材は情弱向けだ。去年160GB VRAMを1千ドルで買ったし、96GB P40 VRAMも1千ドル未満だ
      それでgpt-oss-120b Q8を毎秒30トークン前後で回せる
  • red v2で120Bモデルをまともに動かせるはずがない
    自分はdual A100 AI homelabを自作していて、80GB VRAMをNVLinkで束ねている
    120Bモデルは強い量子化なしでは無理で、そのレベルだとモデルが不安定になる
    KVキャッシュ用の空きも足りず、4kコンテキストあたりでOOMになる
    今70Bモデルを動かしていてもギリギリだ。自分の機材のほうがred v2よりVRAMが16GB多い
    それに、なぜ12Uなのかも分からない。自分のリグは4Uだ
    green v2はGPUがましだが、6万5千ドルならCPUとRAMももっと良くあるべきだ
    存在自体は歓迎だが、正直構成比率が理解できない

    • 性能は悪くないが、狂っているほどではない
      自分はEpyc Milanボックスでgpt-oss-120b Q4をRAMとGPUに分けて回しており、毎秒30〜50トークンくらい出る
      64G VRAM/128G RAM構成は非効率だ。MoEモデルでもルーターには20B程度しか必要なく、残りのVRAMは無駄になる
    • 12Uなのはおそらく単一ケースSKUを使っているからだろう
      「価格を下げて品質を維持するため、サーバーサイズのカスタマイズは提供しません」といった返答なのだと思う
    • 正直、RTX 8000を2枚のほうがred v2よりROIが良い気がする
      自分は8 GPUサーバー(RTX 8000が5枚、RTX 6000 Adaが3枚)を使っているが、通常の推論用なら8000でも十分だ
      greenモデルのほうが速いのだろうが、2万5千ドルの追加コストは納得できない
    • それがBlackwell 6000より安く済んだのか気になる
      Blackwell 6000が4枚で3万2千〜3万6千ドルなのに、残りの3万ドルはどこに消えたのか分からない
    • KVをシステムRAMやストレージにオフロードすれば、もっと長いコンテキストを使えるのではないかと思う
      一部のローカルAIフレームワークは、VRAMの一部だけをキャッシュに使うLRUポリシーをサポートしていて、オーバーヘッドも許容可能だ
  • exaboxが興味深い
    誰が顧客になるのか気になる。Vera Rubinの発表映像を見たあとでは、NVIDIAとハイパースケール市場で競争しようとするのは想像もつかない
    おそらくコストパフォーマンス重視のMLスタートアップを狙っているのだろう
    実際に価格を見ると、Vera RubinがGPU RAMあたりほぼ半額だ
    NVのインターコネクト品質には及ばないだろうが
    誰がこれを買うのか分からない。NVはすでに出荷しているのだから

    • 大企業のインフラは5年以上前のものも多く、アップグレード費用が大きすぎて簡単には入れ替えられない
      その隙間を狙えば競争は可能だ。市場シェアが0.01%未満なら大企業も気にしないだろう
    • 「exaboxが興味深い」という発言への冗談として、「Crysisは動くのか」という反応があった
  • これは新しい暗号資産マイナーみたいなものなのかと思った
    以前はマイニング用ハードウェアを売っていて、今はAI向けとして売っているような感じだ

    • 似てはいるが、報酬ブロックがない点が違う
  • Tinyboxはかっこいいが、市場はおそらく「Kimi 2.5を毎秒50トークンで動かせる」といった明示的な性能保証つき製品をより求めると思う

  • Decoy effectという概念を思い出した

  • この機材は冷却をどう処理しているのか気になる

  • tinygradの「pytorchより2倍速くなったらアルファを脱する」という条件について
    pytorchがどんなワークロードでハードウェア比2倍以上遅いのか、具体的な説明が必要だ
    ほとんどの論文は標準コンポーネントを使っており、pytorchはすでにGPU性能の50%以上を引き出している
    もしカスタムカーネルを書かないと性能が出ない特殊なケースの話なら、それは別問題だ

  • なぜ6 GPU構成をやめたのか分からない
    4 GPU(9070、RTX6000)は2スロット設計なので、一般的なマザーボードでも構築可能
    6 GPUはライザー、PCIeリタイマー、デュアルPSU、カスタムケースが必要で複雑になるが
    それでもコストパフォーマンスはより良かったと思う