AIのユビキタス化への道（毎秒17Kトークン）

(taalas.com)

5 ポイント投稿者 GN⁺ 2026-02-21 | 2件のコメント | WhatsAppで共有

TaalasはAIモデルをカスタムシリコンチップへ変換するプラットフォームを開発し、モデルをハードウェアとして実装するまでにわずか2か月しかかからない
最初の製品であるLlama 3.1 8Bハードワイヤードモデルは毎秒17Kトークンを処理し、従来比で10倍高速、20倍低コスト、消費電力は10分の1の水準
低消費電力・低コスト・高速推論を可能にし、メモリと演算を統合した新しいチップアーキテクチャにより、既存のGPUベースシステムの複雑さを取り除く
Taalasはこのアプローチを通じてAIのリアルタイム化と大衆化を加速し、開発者が超低遅延・超低コスト環境で新しい応用を実験できるようにする

AIの現在の限界と必要性

AIはすでに特定分野で人間を上回っているが、遅延(latency) と コスト(cost) が大衆的な活用における最大の制約と指摘されている
- 言語モデルとの対話は人間の思考速度より遅く、コーディング支援ツールでは応答を数分待たされることがある
- 自動化されたエージェント型AIにはミリ秒単位の反応が必要だが、現在のシステムはそれを満たせていない
最新モデルのデプロイには、数百kWの電力と複雑な冷却・パッケージング・メモリ構造を必要とする大型スーパーコンピュータ級のインフラが求められる
- この構造は都市規模のデータセンターと衛星ネットワークへと拡張され、運用コストの急増を招く
Taalasは、かつてのENIACからトランジスタへの移行のように、AIも効率的で低コストな構造へ進化すべきだと強調する

Taalasの技術哲学

設立から2年半で、TaalasはAIモデルをカスタムシリコンへ変換するプラットフォームを完成させた
- 新しいモデルを受け取ってから2か月以内にハードウェア化が可能
- 成果物であるHardcore Modelsは、従来のソフトウェアベースと比べて速度・コスト・電力効率で10倍規模の改善を実現
3つの中核原則を提示
1. 完全な特化(Total specialization)
  - 各AIモデルごとに最適化されたシリコンを製造し、極限の効率を達成
2. 保存と演算の統合(Merging storage and computation)
  - DRAMと演算チップの分離によるボトルネックを取り除き、単一チップ内でDRAM密度レベルの統合構造を実装
3. 徹底した単純化(Radical simplification)
  - HBM、3Dスタッキング、液冷などの複雑な技術を取り除き、システムコストを一桁水準まで削減

最初の製品: Llama 3.1 8Bハードワイヤードモデル

世界最速かつ低コスト・低消費電力の推論プラットフォームとして紹介
- Llama 3.1 8Bモデルをシリコンへ直接実装し、毎秒17Kトークン処理、従来比10倍の速度、20倍安い製造コスト、10分の1の消費電力を実現
オープンソースモデルを基盤とし、実用性と開発のしやすさを確保
- コンテキストウィンドウのサイズ調整と**LoRAベースのファインチューニング(fine-tuning)**をサポート
第1世代チップは3ビット・6ビット混合量子化を使用しており、GPU比で品質低下が一部存在
- 第2世代シリコン(HC2)は標準4ビット浮動小数点形式を採用し、品質と効率を改善

今後のモデルロードマップ

第2のモデルは中規模の推論型LLMで、春に研究所で完成後、推論サービスへ統合される予定
第3のモデルはHC2プラットフォームベースのフロンティア級LLMで、より高い密度と速度を提供し、冬に展開予定

開発者アクセシビリティとチーム構成

現在ベータサービスとして公開されているLlamaモデルは、超低遅延・超低コスト環境を体験できる形で提供されている
- chatjimmy.ai デモと APIサービスで利用可能
Taalasは24人のチームと3,000万ドルのコストで最初の製品を完成させており、これは精密な目標設定と集中した実行力の結果として示されている
チームは20年以上協業してきた少数精鋭の専門家グループで構成され、品質・精密性・クラフトマンシップを重視

結論: AIのリアルタイム化と大衆化

Taalasの技術は性能・電力効率・コストにおける段階的飛躍を提供
既存のGPU中心構造とは異なる新しいAIシステムアーキテクチャの哲学を提示
遅延とコストの障壁を取り除くことで、AIをリアルタイムに活用できる環境を開発者に提供
今後はより強力なモデルへ拡張し、AIへの普遍的なアクセス性を実現する方向へ発展する予定

2件のコメント

colus001 2026-02-21

どれほど意味があるのかは分かりませんね。市場はHypeを好むので資金調達はうまくいくでしょうが、競うように新しいモデルが次々と出てくる中、2か月でもずいぶん昔のことのように感じられるので。

GN⁺ 2026-02-21

Hacker Newsの意見

このチップは汎用ではなく、高速・低遅延推論に特化した設計
8B dense 3bit quant（Llama 3.1）基準で毎秒15kトークンを処理し、6nmプロセスの880mm²ダイ、530億トランジスタ、消費電力は約200W、生産単価は20倍安く、トークン当たりのエネルギーは10分の1に削減される
創業チームはAMD・Nvidia出身で25年の経験があり、VC投資資金2億ドルを確保
1mm²当たり約0.2ドルで計算すると10億パラメータ当たり20ドル水準であり、大きなダイは歩留まりが低下する
詳細は創業者インタビューを参照
10kトークン未満の超低遅延アプリケーションに適しており、春の発売時にはVC資金が殺到する可能性が高い
- 数学的な計算が役に立つ。毎秒16kトークンは驚異的な速度で、これは新しい製品カテゴリと見なせる
  Nvidia H200は12k tok/s程度だがバッチ処理なので最初のトークン遅延ははるかに大きい
  Taalasはミリ秒単位の応答なので、リアルタイム音声・動画生成に適している
  ただし2カ月以内のチップ生産はあまりに楽観的だ。それでもv3バージョンは実際のAPIリクエストを処理できる水準になると期待している
- 20ドルのダイなら、モデルごとにゲームボーイのカートリッジのように売れるかもしれないという冗談
- Recursive Language Model（論文リンク）を使えばコンテキスト制限を補えるのか気になる
  トークン消費は多いが、トークンが安ければ精度向上に有利かもしれない
- 880mm²ならM1 Ultraより大きく、H100よりも大きい
  ダイサイズが大きくなると歩留まりは下がるが、数ビットの誤りは大きな問題ではないのではとも思う
- こうしたチップで知能ロボットがどう進化するのか興味深い
コメントではモデル精度が論じられているが、これはLlama 3.1 8Bモデルだという点を理解していないようだ
核心はモデルではなく、カスタムハードウェアの性能だ
GLM-5のような最新モデルを載せれば本当にすごいことになりそうだ
応答は「Enterを押した瞬間」に出てくるほど即時的だ
ただしモデルを入れ替える際にハードウェアを丸ごと交換しなければならない構造は、市場性に影響する可能性がある
- 価格情報はこの画像にある
  まだ市場反応を見ようとしている探索的な価格設定に見える
  柔軟性の代わりに速度最大化を選んだが、LoRAベースのファインチューニングには対応するという
  単純なデータタグ付けや大規模並列処理には非常に有用だろう
- 個人的にはCerebrasのほうがずっと先を行っていると思う。tok/s比較は不適切だ
ChatJimmyデモを使ってみたが、回答が瞬きする間に出てきて驚いた
chatjimmy.ai
- 猫用の潜水艦を設計してほしいと頼んだら即座に回答が来た
  内容も意外に具体的で有用だった
- この速度なら、テストを通過するまでコードを自動で反復生成できる
  まったく新しい開発方式が開けそうだ
- 投資家ならOpenAIではなくChatJimmyに投資すべきかもしれない
- ただしファイル添付機能は動作せず、文脈理解がややずれていた
- 毎秒16,000トークンを直接確認したとして感嘆している
多くの人は懐疑的だが、非フロンティアモデルにも十分な需要がある
Llama 3.1 activity graphを見るだけでも週22%で成長中だ
遅延が減れば、ウェブページの読み込みレベルでもLLMを使える
- フロンティアモデルにも市場はあり得る。たとえばAnthropicがOpus 4.6をチップに刻めば推論コストを下げられる
- 古いモデルも依然として創造的作業に強い。最新モデルはコード・推論中心にチューニングされて創造性が落ちている
- 構造化コンテンツ抽出やMarkdown変換のような作業に理想的だ
  このチップはLLMをリアルタイムインターフェースに変えてくれる
- ロボットのように低遅延・狭い作業経路が必要な分野にも向いている
こんなに速く間違った回答を見たことがない、という冗談ではあるが、技術自体は非常に有望だ
8Bモデルは小さいが、長期的には大きな市場になるだろう
- 質問には答えられなかったが、それを信じがたいほど速く答えられなかったという言い方が出るほどだ
  今は役に立たないが、完全に新しい感覚の技術だ
- Qwen 2.5向けに出たらすぐ買うと思う
  実務ではフロンティアモデルが必須というわけではない
- 7〜9Bモデルでも十分に良い。複数モデルに並行で問い合わせて合意ベースの精度を高めることが重要だ
  80B以上になると差はわずかになる
- スペルミスを指摘しつつユーモラスに反応している
こうしたカードを個人用PCに挿してClaude Codeを置き換えられるか想像している
毎秒17kトークンなら複数のエージェントパイプラインを同時に回せる
各エージェントがコード修正・検証の役割を担い、素早く反復改善できる
最高性能のモデルでなくても、中級クラスのモデルを何度も回してより良い結果を得られるのか気になる
- モデル自体よりもツールとハーネスが結果品質を左右する
  高速なトークン出力と優れたツーリングが組み合わされれば、フロンティアモデルとの差を縮められる
- ただしモデルが自分の出力をもとに自力で改善することはできない。現実に基づく学習が必要だ
修正された情報によると、実際にはモデルがシリコンに刻み込まれた単一チップ構造だ
Llama 8B q3モデルを1kコンテキストで焼き付けた形に見え、10枚のチップ（合計2.4kW）が必要らしい
モデル変更が不可能なので、長期間固定された作業にしか向かない
- データタグ付けのような100トークン以下の短い問題に理想的だ
- RAGやエージェント型検索をより多く行うモデル設計も可能そうだ
- モデル更新サイクルが速い今、6カ月以上かかるチップ生産は現実的に難しい
- NLP作業全般に応用可能だ
- ビデオゲームのNPC向けチップとしても適しているかもしれない
毎秒17kトークンは、単なる配備効率ではなく評価方法そのものを変える速度だ
既存のMMLUのような静的ベンチマークは人間の速度基準なので、この処理量では数万回の対話テストが可能になる
速度が高いほど既存評価がさらに不適切になることを示している
チャットボットを試したが、15k tok/sで長い回答が即座に出てきて衝撃だった
ローカルコーディング用にフロンティアモデル版が欲しい
- 読むのに2分かかるテキストが1秒もかからず生成されるのはとんでもない光景だった
- 地球外文明を見つけられない理由は、彼らが別の時間スケールで動いているからだという冗談を思い出す
- この速度を推論ループやコード生成ハーネスに適用すればAIの革新が起きるだろう
否定的な反応もあるが、低遅延モデルが必要な応用は非常に多い
たとえば自由入力検索を構造化クエリに変換する作業は、従来モデルの遅延のせいで不可能だった
こうしたチップは、ユーザーが感じる即時性レベルのAI応答を可能にする

AIのユビキタス化への道（毎秒17Kトークン）

AIの現在の限界と必要性

Taalasの技術哲学

最初の製品: Llama 3.1 8Bハードワイヤードモデル

今後のモデルロードマップ

開発者アクセシビリティとチーム構成

結論: AIのリアルタイム化と大衆化

関連記事

2件のコメント

Hacker Newsの意見