23 ポイント 投稿者 GN⁺ 2026-02-23 | 5件のコメント | WhatsAppで共有
  • Taalasは、Llama 3.1 8BモデルをASICチップに直接焼き込み、毎秒17,000トークンの推論速度を達成したスタートアップ
  • GPUベースのシステムより10分の1のコスト、10分の1の消費電力、そして10倍高速な推論性能を主張
  • モデルの重みをシリコントランジスタに直接刻み込む構造により、GPUのメモリボトルネックを解消
  • 外部DRAM/HBMなしで、チップ内のSRAMだけでKVキャッシュとLoRAアダプタを処理
  • モデルごとのチップ製造は上部2層だけをカスタマイズする方式で、2か月でLlama 3.1用チップを完成

Taalasチップの概要

  • Taalasは創業2.5年の企業で、このチップは最初の製品
  • チップは固定機能型ASICで、1つのモデルしか保存できず、書き換えも不可
    • CD-ROMやゲームカートリッジのような単一モデル専用構造を持つ

GPUベースLLM推論の非効率

  • LLMは複数の層(layer)で構成され、例としてLlama 3.1 8Bは32層を持つ
  • GPUは各層の重み行列をVRAMから読み込み、演算後に再び保存する処理を繰り返す
    • 各トークンを生成するたびに、この処理を32回繰り返す必要がある
  • このメモリ往復処理が遅延とエネルギー消費を招き、これをメモリ帯域幅ボトルネックまたはVon Neumannボトルネックと呼ぶ

Taalasの「ハードワイヤード」アプローチ

  • TaalasはLlama 3.1の32層を順番にシリコン上へ刻み込む
    • モデルの重みは物理トランジスタとして実装される
  • 入力ベクトルが入ると、各層のトランジスタを通過しながら電気信号の形で連続処理される
    • 中間結果をVRAMに保存せず、**配線(pipeline registers)**に沿って次の層へ直接渡される
  • 会社は、4ビットデータの保存と乗算演算を単一トランジスタで行うmagic multiplier」構造を開発したと述べている

メモリ構造

  • 外部DRAM/HBMは使わず、代わりにチップ内部に少量のSRAMを搭載
    • DRAMとロジックゲートの混載製造が難しいため
  • このオンチップSRAMは、KVキャッシュ(対話中の一時メモリ)とLoRAアダプタの保存に使われる

モデル別チップ製造方式

  • モデルごとにチップを新規製造するのは一般に高コスト
  • Taalasは基本チップ構造を共通設計し、特定モデルに合わせて**上部2層(マスク)**だけを修正
    • 完全な新規チップ製造よりはるかに高速な方式
  • Llama 3.1 8B用チップの開発には約2か月を要した
    • AI業界の基準では遅いが、カスタムチップ製造速度としては非常に速い水準

今後への期待

  • GPUなしでローカルモデルを実行するユーザーの立場から、こうしたハードウェアの大量生産が期待される

5件のコメント

 
GN⁺ 2026-02-23
Hacker News の意見
  • 80億個の**係数(coefficients)**が530億個のトランジスタにパックされている。係数あたり約6.5個のトランジスタが使われている
    おそらくブロック量子化(block quantization)を使っている。たとえば3ビット係数4個のブロックなら、必要な異なるブロックは330個しかない
    Llama 3.1 の行列は 4096x4096、つまり1,600万個の係数で構成されるが、これを330個のブロックに圧縮できると考えられる
    ブロックあたり約25万トランジスタの予算を仮定すると、係数あたり約5個のトランジスタとなる。FP4レベルでも十分に実現可能に見える

    • PyTorch に model.toVHDL() のような機能が生まれることを期待したい
  • こんなことが可能だという事実に人々が驚いていること自体が、むしろ驚きだ
    GPU が生まれた理由も結局はソフトウェア演算をハードウェアに移した結果だった。LLM も同じ数学的構造を持つので、この方向は当然の進化だと思う

    • 人々が驚く理由はおそらくROIのタイミングだろう。いつごろモデル専用チップをテープアウトすることに収益性が出るのかが焦点だ。MoE アーキテクチャはこの過程で新たな課題を投げかけそうだ
    • これは CPU 対 GPU ではなく、CPU/GPU 対 ASICの比較だと見ている。ASIC は速度・電力・コストの面で有利だが、設計が難しく再プログラム不可能だ。LLM のように性能に敏感な機能には ASIC が適している
    • 重みをゲートに直接焼き込む方式はたしかに新しいアプローチだ。“Weights to gates” という表現がしっくりくる
    • しかし柔軟性が低いのが問題だ。データセンター需要が変化したり、新しいモデルが出たりしたときに対応が難しい。ただしドローン・防衛用途のようにエネルギー効率と速度が重要な分野では現実的だ
    • Nvidia も間違いなくこうしたことを実験中だと思う。まだ商業的には早いが、効率重視のAIハードウェアへ向かう流れは確実だ
  • フォームファクタより本当の革新は**レイテンシ(latency)**だ
    クラウド推論はネットワークオーバーヘッドだけで 50〜200ms かかるが、PCIe に挿さる専用 ASIC なら最初のトークンをマイクロ秒単位で出せる
    リアルタイム動画生成や 100ms 未満の応答が必要なエージェントでは、これが決定的だ。コストは GPU より高いかもしれないが、新しいリアルタイムアプリケーションを可能にする

    • レイテンシだけでなく、帯域の信頼性と制御権も重要だ。中央集権型とローカルコンピューティングは常に綱引きをしてきた。企業は統制を、ユーザーは自律性を望む。結局、市場には常に「自分のコンピュータを自分で完全に制御したい」という需要が残るだろう
    • AI サービスが実際にどこで配信されているのか気になる。たとえばロンドンで Claude を使うとき、リクエストがどこへ行くのか把握しにくい。LLM向けエッジネットワークがあれば理想的だが、ASIC がそれを可能にするのかもしれない
  • Gemma 5 Mini のようなモデルがローカルハードウェア上で直接動く未来は興味深い
    H.264 や AV1 エンコーダのように、特定モデル向けの「AI コア」が生まれるかもしれない
    構造化 ASIC 時代を再び開く Structured ASIC platform のおかげで、コストも下がる可能性がある

    • 大企業がこれにあまり関心を示さない理由は2つあるように見える。第一に、AI の進歩があまりに速いため、チップが量産される頃にはすでに旧式になっている可能性がある。第二に、クラウドのサブスクリプションモデルとデータ収集中心のビジネス構造が、オフラインチップと相性が悪い
    • Apple はこういうことを昨日にでも始めるべきだったと思う。自分のスマホや MacBook で完全ローカルAIが動くのが、本当に望んでいる未来だ。クラウドベースAIは AOL 時代の残り物のように感じる
    • Cerebras や Groq のようなプログラマブルASICは、すでに GPU 比で何倍もの速度を出しているのに、市場の反応は鈍い
  • これはまるでCD-ROM やゲームカートリッジのように、1つのモデルだけを載せたチップを想像させる。コンピュータのスロットに挿してモデルを交換するような形だ

    • そのスロットは実質USB-Cになるだろう。モバイルバッテリー形状の推論 ASIC を挿して使う姿が思い浮かぶ
    • 昔の eGPU のような、机の下に置くローカルモデル装置が欲しい。完全オフラインで、完全な個人プライバシー保証つきだ
    • こうしたハードウェアはオープンウェイトモデルを後押しし、プライバシーも強化する。ロボットが作業に応じてモデルカートリッジを交換するハードウェア MoEも可能かもしれない
    • モデル専用カートリッジは性能/電力効率がはるかに良さそうだ。ただ、コンシューマ向けに採算が合うかどうかは疑問だ
    • 消費電力が変数だ。家庭向けで 2.5W で毎秒170トークンなら素晴らしい。こうした進歩がいつかポジトロニック・ブレイン(https://en.wikipedia.org/wiki/Positronic_brain) につながるかもしれない
  • 安価にASIC を印刷できるなら、モデルの使い方は完全に変わるだろう
    モデルが USB デバイスの形で販売され、200億未満の高密度モデルなら個人アシスタントとして十分だ
    グラフィックカードの再来のように感じる。オープンウェイトモデルが増えた今、低い購入・運用コストでも大きな市場が開けるだろう

  • MoE アーキテクチャではどう動作するのか気になる
    高密度 LLM はすべての重みを近くに置くのが有利だが、MoE はメモリアクセス中心なので、MAC とメモリの間に不均衡が生じる。結局はチップレット方式へ戻る可能性が高い

    • Google の TPUv4 はOptical Circuit Switchで3Dトーラス構造を作り、MoE の通信パターンに合わせて動的に再配線する。4,096個のチップを1つのポッドとして接続し、SparseCore で不連続なメモリアクセスを処理する。これはデータセンター級スケールの話だが、拡張性の例として興味深い
    • 各 Expert モデルをシリコンに刻み込めば、速度はものすごいはずだ。結局、ASIC印刷コストが最大の制約になる
  • いずれAI専用PCIe拡張カードが主流になる気がする
    昔のグラフィックカードやサウンドカードのように、新しいモデルが出たらカードを交換して PC の「知能」をアップグレードする時代が来るだろう

    • こういう方向性はほとんど避けられない進化だと思う。政府や大企業が先に求め、やがてコンシューマ市場へ広がっていくだろう。
      コンピューティングは常にローカル vs サーバーの周期を繰り返してきたが、オンプレミス需要が完全に消えることはないはずだ
  • 結局、AIチップスロットを備えたマザーボードや、高速ポートに挿す AI 周辺機器が登場しそうだ

  • Apple のようなメーカーが、こうしたチップを3年以内に直接内蔵できるのか気になる。現代のモデル水準の超高速ローカル性能を期待したい

    • モデルを**モジュラー型メモリとして更新(diff)**できるだろうか。性能低下が大きいのか気になる
    • ただし、3年間旧式モデルを回し続けることには意味がないかもしれない。進歩のスピードが速すぎる
 
dolsangodkimchi 2026-03-04

デジタルで微積分することと、アナログで微積分することの違いを思い出しますね。

 
chcv0313 2026-03-04

LLMモデルではなく、これでテキスト埋め込みモデルを作れたらいいのですが。

 
bungker 2026-03-04

そうですね。一度作れば、ずっと使えますし。

 
parkindani 2026-02-23

AIのおかげでチップの新規設計と開発速度が加速するなら、これが本当の未来なのかもしれませんね。25年ほど前にハードウェア性能が競うように向上していた頃を思い出します。