- Taalasは、Llama 3.1 8BモデルをASICチップに直接焼き込み、毎秒17,000トークンの推論速度を達成したスタートアップ
- GPUベースのシステムより10分の1のコスト、10分の1の消費電力、そして10倍高速な推論性能を主張
- モデルの重みをシリコントランジスタに直接刻み込む構造により、GPUのメモリボトルネックを解消
- 外部DRAM/HBMなしで、チップ内のSRAMだけでKVキャッシュとLoRAアダプタを処理
- モデルごとのチップ製造は上部2層だけをカスタマイズする方式で、2か月でLlama 3.1用チップを完成
Taalasチップの概要
- Taalasは創業2.5年の企業で、このチップは最初の製品
- チップは固定機能型ASICで、1つのモデルしか保存できず、書き換えも不可
- CD-ROMやゲームカートリッジのような単一モデル専用構造を持つ
GPUベースLLM推論の非効率
- LLMは複数の層(layer)で構成され、例としてLlama 3.1 8Bは32層を持つ
- GPUは各層の重み行列をVRAMから読み込み、演算後に再び保存する処理を繰り返す
- 各トークンを生成するたびに、この処理を32回繰り返す必要がある
- このメモリ往復処理が遅延とエネルギー消費を招き、これをメモリ帯域幅ボトルネックまたはVon Neumannボトルネックと呼ぶ
Taalasの「ハードワイヤード」アプローチ
- TaalasはLlama 3.1の32層を順番にシリコン上へ刻み込む
- 入力ベクトルが入ると、各層のトランジスタを通過しながら電気信号の形で連続処理される
- 中間結果をVRAMに保存せず、**配線(pipeline registers)**に沿って次の層へ直接渡される
- 会社は、4ビットデータの保存と乗算演算を単一トランジスタで行う「magic multiplier」構造を開発したと述べている
メモリ構造
- 外部DRAM/HBMは使わず、代わりにチップ内部に少量のSRAMを搭載
- このオンチップSRAMは、KVキャッシュ(対話中の一時メモリ)とLoRAアダプタの保存に使われる
モデル別チップ製造方式
- モデルごとにチップを新規製造するのは一般に高コスト
- Taalasは基本チップ構造を共通設計し、特定モデルに合わせて**上部2層(マスク)**だけを修正
- Llama 3.1 8B用チップの開発には約2か月を要した
- AI業界の基準では遅いが、カスタムチップ製造速度としては非常に速い水準
今後への期待
- GPUなしでローカルモデルを実行するユーザーの立場から、こうしたハードウェアの大量生産が期待される
5件のコメント
Hacker News の意見
80億個の**係数(coefficients)**が530億個のトランジスタにパックされている。係数あたり約6.5個のトランジスタが使われている
おそらくブロック量子化(block quantization)を使っている。たとえば3ビット係数4個のブロックなら、必要な異なるブロックは330個しかない
Llama 3.1 の行列は 4096x4096、つまり1,600万個の係数で構成されるが、これを330個のブロックに圧縮できると考えられる
ブロックあたり約25万トランジスタの予算を仮定すると、係数あたり約5個のトランジスタとなる。FP4レベルでも十分に実現可能に見える
model.toVHDL()のような機能が生まれることを期待したいこんなことが可能だという事実に人々が驚いていること自体が、むしろ驚きだ
GPU が生まれた理由も結局はソフトウェア演算をハードウェアに移した結果だった。LLM も同じ数学的構造を持つので、この方向は当然の進化だと思う
フォームファクタより本当の革新は**レイテンシ(latency)**だ
クラウド推論はネットワークオーバーヘッドだけで 50〜200ms かかるが、PCIe に挿さる専用 ASIC なら最初のトークンをマイクロ秒単位で出せる
リアルタイム動画生成や 100ms 未満の応答が必要なエージェントでは、これが決定的だ。コストは GPU より高いかもしれないが、新しいリアルタイムアプリケーションを可能にする
Gemma 5 Mini のようなモデルがローカルハードウェア上で直接動く未来は興味深い
H.264 や AV1 エンコーダのように、特定モデル向けの「AI コア」が生まれるかもしれない
構造化 ASIC 時代を再び開く Structured ASIC platform のおかげで、コストも下がる可能性がある
これはまるでCD-ROM やゲームカートリッジのように、1つのモデルだけを載せたチップを想像させる。コンピュータのスロットに挿してモデルを交換するような形だ
安価にASIC を印刷できるなら、モデルの使い方は完全に変わるだろう
モデルが USB デバイスの形で販売され、200億未満の高密度モデルなら個人アシスタントとして十分だ
グラフィックカードの再来のように感じる。オープンウェイトモデルが増えた今、低い購入・運用コストでも大きな市場が開けるだろう
MoE アーキテクチャではどう動作するのか気になる
高密度 LLM はすべての重みを近くに置くのが有利だが、MoE はメモリアクセス中心なので、MAC とメモリの間に不均衡が生じる。結局はチップレット方式へ戻る可能性が高い
いずれAI専用PCIe拡張カードが主流になる気がする
昔のグラフィックカードやサウンドカードのように、新しいモデルが出たらカードを交換して PC の「知能」をアップグレードする時代が来るだろう
コンピューティングは常にローカル vs サーバーの周期を繰り返してきたが、オンプレミス需要が完全に消えることはないはずだ
結局、AIチップスロットを備えたマザーボードや、高速ポートに挿す AI 周辺機器が登場しそうだ
Apple のようなメーカーが、こうしたチップを3年以内に直接内蔵できるのか気になる。現代のモデル水準の超高速ローカル性能を期待したい
デジタルで微積分することと、アナログで微積分することの違いを思い出しますね。
LLMモデルではなく、これでテキスト埋め込みモデルを作れたらいいのですが。
そうですね。一度作れば、ずっと使えますし。
AIのおかげでチップの新規設計と開発速度が加速するなら、これが本当の未来なのかもしれませんね。25年ほど前にハードウェア性能が競うように向上していた頃を思い出します。