- TaalasはAIモデルをカスタムシリコンチップへ変換するプラットフォームを開発し、モデルをハードウェアとして実装するまでにわずか2か月しかかからない
- 最初の製品であるLlama 3.1 8Bハードワイヤードモデルは毎秒17Kトークンを処理し、従来比で10倍高速、20倍低コスト、消費電力は10分の1の水準
- 低消費電力・低コスト・高速推論を可能にし、メモリと演算を統合した新しいチップアーキテクチャにより、既存のGPUベースシステムの複雑さを取り除く
- Taalasはこのアプローチを通じてAIのリアルタイム化と大衆化を加速し、開発者が超低遅延・超低コスト環境で新しい応用を実験できるようにする
AIの現在の限界と必要性
- AIはすでに特定分野で人間を上回っているが、遅延(latency) と コスト(cost) が大衆的な活用における最大の制約と指摘されている
- 言語モデルとの対話は人間の思考速度より遅く、コーディング支援ツールでは応答を数分待たされることがある
- 自動化されたエージェント型AIにはミリ秒単位の反応が必要だが、現在のシステムはそれを満たせていない
- 最新モデルのデプロイには、数百kWの電力と複雑な冷却・パッケージング・メモリ構造を必要とする大型スーパーコンピュータ級のインフラが求められる
- この構造は都市規模のデータセンターと衛星ネットワークへと拡張され、運用コストの急増を招く
- Taalasは、かつてのENIACからトランジスタへの移行のように、AIも効率的で低コストな構造へ進化すべきだと強調する
Taalasの技術哲学
- 設立から2年半で、TaalasはAIモデルをカスタムシリコンへ変換するプラットフォームを完成させた
- 新しいモデルを受け取ってから2か月以内にハードウェア化が可能
- 成果物であるHardcore Modelsは、従来のソフトウェアベースと比べて速度・コスト・電力効率で10倍規模の改善を実現
- 3つの中核原則を提示
- 完全な特化(Total specialization)
- 各AIモデルごとに最適化されたシリコンを製造し、極限の効率を達成
- 保存と演算の統合(Merging storage and computation)
- DRAMと演算チップの分離によるボトルネックを取り除き、単一チップ内でDRAM密度レベルの統合構造を実装
- 徹底した単純化(Radical simplification)
- HBM、3Dスタッキング、液冷などの複雑な技術を取り除き、システムコストを一桁水準まで削減
最初の製品: Llama 3.1 8Bハードワイヤードモデル
- 世界最速かつ低コスト・低消費電力の推論プラットフォームとして紹介
- Llama 3.1 8Bモデルをシリコンへ直接実装し、毎秒17Kトークン処理、従来比10倍の速度、20倍安い製造コスト、10分の1の消費電力を実現
- オープンソースモデルを基盤とし、実用性と開発のしやすさを確保
- コンテキストウィンドウのサイズ調整と**LoRAベースのファインチューニング(fine-tuning)**をサポート
- 第1世代チップは3ビット・6ビット混合量子化を使用しており、GPU比で品質低下が一部存在
- 第2世代シリコン(HC2)は標準4ビット浮動小数点形式を採用し、品質と効率を改善
今後のモデルロードマップ
- 第2のモデルは中規模の推論型LLMで、春に研究所で完成後、推論サービスへ統合される予定
- 第3のモデルはHC2プラットフォームベースのフロンティア級LLMで、より高い密度と速度を提供し、冬に展開予定
開発者アクセシビリティとチーム構成
- 現在ベータサービスとして公開されているLlamaモデルは、超低遅延・超低コスト環境を体験できる形で提供されている
- Taalasは24人のチームと3,000万ドルのコストで最初の製品を完成させており、これは精密な目標設定と集中した実行力の結果として示されている
- チームは20年以上協業してきた少数精鋭の専門家グループで構成され、品質・精密性・クラフトマンシップを重視
結論: AIのリアルタイム化と大衆化
- Taalasの技術は性能・電力効率・コストにおける段階的飛躍を提供
- 既存のGPU中心構造とは異なる新しいAIシステムアーキテクチャの哲学を提示
- 遅延とコストの障壁を取り除くことで、AIをリアルタイムに活用できる環境を開発者に提供
- 今後はより強力なモデルへ拡張し、AIへの普遍的なアクセス性を実現する方向へ発展する予定
2件のコメント
どれほど意味があるのかは分かりませんね。市場はHypeを好むので資金調達はうまくいくでしょうが、競うように新しいモデルが次々と出てくる中、2か月でもずいぶん昔のことのように感じられるので。
Hacker Newsの意見
このチップは汎用ではなく、高速・低遅延推論に特化した設計
8B dense 3bit quant(Llama 3.1)基準で毎秒15kトークンを処理し、6nmプロセスの880mm²ダイ、530億トランジスタ、消費電力は約200W、生産単価は20倍安く、トークン当たりのエネルギーは10分の1に削減される
創業チームはAMD・Nvidia出身で25年の経験があり、VC投資資金2億ドルを確保
1mm²当たり約0.2ドルで計算すると10億パラメータ当たり20ドル水準であり、大きなダイは歩留まりが低下する
詳細は創業者インタビューを参照
10kトークン未満の超低遅延アプリケーションに適しており、春の発売時にはVC資金が殺到する可能性が高い
Nvidia H200は12k tok/s程度だがバッチ処理なので最初のトークン遅延ははるかに大きい
Taalasはミリ秒単位の応答なので、リアルタイム音声・動画生成に適している
ただし2カ月以内のチップ生産はあまりに楽観的だ。それでもv3バージョンは実際のAPIリクエストを処理できる水準になると期待している
トークン消費は多いが、トークンが安ければ精度向上に有利かもしれない
ダイサイズが大きくなると歩留まりは下がるが、数ビットの誤りは大きな問題ではないのではとも思う
コメントではモデル精度が論じられているが、これはLlama 3.1 8Bモデルだという点を理解していないようだ
核心はモデルではなく、カスタムハードウェアの性能だ
GLM-5のような最新モデルを載せれば本当にすごいことになりそうだ
応答は「Enterを押した瞬間」に出てくるほど即時的だ
ただしモデルを入れ替える際にハードウェアを丸ごと交換しなければならない構造は、市場性に影響する可能性がある
まだ市場反応を見ようとしている探索的な価格設定に見える
柔軟性の代わりに速度最大化を選んだが、LoRAベースのファインチューニングには対応するという
単純なデータタグ付けや大規模並列処理には非常に有用だろう
ChatJimmyデモを使ってみたが、回答が瞬きする間に出てきて驚いた
chatjimmy.ai
内容も意外に具体的で有用だった
まったく新しい開発方式が開けそうだ
多くの人は懐疑的だが、非フロンティアモデルにも十分な需要がある
Llama 3.1 activity graphを見るだけでも週22%で成長中だ
遅延が減れば、ウェブページの読み込みレベルでもLLMを使える
このチップはLLMをリアルタイムインターフェースに変えてくれる
こんなに速く間違った回答を見たことがない、という冗談ではあるが、技術自体は非常に有望だ
8Bモデルは小さいが、長期的には大きな市場になるだろう
今は役に立たないが、完全に新しい感覚の技術だ
実務ではフロンティアモデルが必須というわけではない
80B以上になると差はわずかになる
こうしたカードを個人用PCに挿してClaude Codeを置き換えられるか想像している
毎秒17kトークンなら複数のエージェントパイプラインを同時に回せる
各エージェントがコード修正・検証の役割を担い、素早く反復改善できる
最高性能のモデルでなくても、中級クラスのモデルを何度も回してより良い結果を得られるのか気になる
高速なトークン出力と優れたツーリングが組み合わされれば、フロンティアモデルとの差を縮められる
修正された情報によると、実際にはモデルがシリコンに刻み込まれた単一チップ構造だ
Llama 8B q3モデルを1kコンテキストで焼き付けた形に見え、10枚のチップ(合計2.4kW)が必要らしい
モデル変更が不可能なので、長期間固定された作業にしか向かない
毎秒17kトークンは、単なる配備効率ではなく評価方法そのものを変える速度だ
既存のMMLUのような静的ベンチマークは人間の速度基準なので、この処理量では数万回の対話テストが可能になる
速度が高いほど既存評価がさらに不適切になることを示している
チャットボットを試したが、15k tok/sで長い回答が即座に出てきて衝撃だった
ローカルコーディング用にフロンティアモデル版が欲しい
否定的な反応もあるが、低遅延モデルが必要な応用は非常に多い
たとえば自由入力検索を構造化クエリに変換する作業は、従来モデルの遅延のせいで不可能だった
こうしたチップは、ユーザーが感じる即時性レベルのAI応答を可能にする