2つの異なる方式による高速LLM推論技法

(seangoedecke.com)

6 ポイント投稿者 GN⁺ 2026-02-16 | 1件のコメント | WhatsAppで共有

AnthropicとOpenAIがそれぞれ自社の最高峰コーディングモデルの**「fast mode」**を公開し、推論速度を大幅に向上
AnthropicはOpus 4.6モデルをそのまま使用しつつバッチサイズを縮小して、最大2.5倍高速なトークン処理速度を提供
OpenAIはCerebrasチップベースの新モデル GPT-5.3-Codex-Sparkを導入し、毎秒1000トークン以上を生成する一方、精度はやや低め
2つのアプローチは、それぞれ低バッチ推論と超大型チップベースのインメモリ推論という、まったく異なる技術原理を用いる
高速推論は技術的には印象的だが、速度より精度のほうが重要だという指摘もあり、経済性・実用性はまだ不透明

AnthropicのFast Mode構造

Anthropicの方式は、バッチサイズを減らしてレイテンシを最小化する形
- GPUの主なボトルネックはメモリ転送であり、複数ユーザーの要求を束ねるバッチングはスループットを高める一方で待機時間を増やす
- Fast modeは、ユーザーがリクエストした瞬間にすぐ処理される**「すぐ発車するバス」**のようなもの
この方式は6倍高いコストで2.5倍速い速度を提供
- バッチ待機時間がなくなり、最初のトークンまでの遅延が短縮される
- ただしGPU全体のスループットは低下する
一部のユーザーは、最初のトークン以降は待機時間がそれほど大きくないと指摘しており、小さなバッチの効果は計算量の減少による実行速度向上により近い

OpenAIのFast Mode構造

OpenAIはCerebrasチップを活用し、まったく異なるアプローチを取っている
- 既存モデルの代わりに、GPT-5.3-Codex-Sparkという軽量化（distilled）モデルを使用
- Sparkは元モデルより精緻さでは劣るが、15倍以上速い推論速度を達成
Cerebrasチップは70平方インチ規模の超大型ウェハースケールチップで、SRAM 44GBを内蔵
- モデル全体をSRAMに載せ、外部メモリへのアクセスなしでインメモリ推論を実行
- GPUの数十MB程度のSRAMと比べて大きな差がある
Sparkモデルは複数のCerebrasチップに**シャーディング（sharding）**されて常駐していると推定され、この構成が高速化の鍵となっている

技術的比較と評価

Anthropicは既存モデルをそのまま維持しながら、単純にバッチ方針を調整
OpenAIは新しいハードウェアアーキテクチャとモデル設計を組み合わせ、より根本的な性能向上を達成
Cerebrasチップ上でモデルを動かすことは複雑な技術的挑戦であり、Sparkモデルの学習もまた容易ではない作業
両社のアプローチは、速度向上という同じ目標を異なる技術的経路で達成した事例であり、OpenAIの方式のほうが技術的にはより印象的

高速推論の意味と限界

両社の発表が続いたことで、「高速AI推論」が次世代の競争軸のようにも見えるが、実際には戦略的対応の色合いが強い
- AnthropicはOpenAIの発表に合わせて素早く対応したように見える
- OpenAIはCerebrasとの協業による実験的成果を公開した段階
速いが精緻さに欠けるモデルには、実運用上の限界がある
- ユーザーはモデルの誤りに対処するためにより多くの時間を使うため、速度より精度が重要
ただし、このような**「低精度・高速推論」モデルがAIシステムの下位コンポーネント**として使われる可能性はある
- 例: Claude CodeでのHaikuのユースケース、OpenAIにおけるSpark内在化の可能性

コミュニティでの議論と追加観察

Hacker Newsでは、バッチングの性能特性やチップ間通信のボトルネックについてさまざまな意見が示された
- 一部は**連続バッチング（continuous batching）**によって待機時間はほとんどないと主張
- 別の人々は、チップ間接続が推論速度に影響すると反論
バッチサイズとレイテンシのトレードオフは依然として存在する
Anthropicは最初のトークン遅延が依然として遅い可能性を明示し、OpenAIはWebSocketベースの持続接続でこれを最小化しようとしている
全体として、高速LLM推論の構造は複雑で、単純なモデルでは説明しにくい

1件のコメント

GN⁺ 2026-02-16

Hacker Newsのコメント

人々はAnthropicのfast modeを誤解している。名前のせいだと思われる
実際にはよりコストが高く、難しい問題でより賢く動作する方式だ。
この論文のparallel distill and refineアプローチがまさに当てはまる。
複数の経路を並列に生成したあと、すばやく蒸留（distill）し、精製（refine）して結果を出す構造だ。
この方式はトークンをより多く消費するが、より速く、より賢い出力を可能にする
speculative decodingは品質向上とは無関係で、単純なバッチング（batch）は速度を上げるがコストは低い
Gemini DeepthinkとGPT-5.2-proも似た並列推論を行うが、経路全体を最後まで計算したあとで結果を精製する
- Anthropicの公式ドキュメントによれば、fast modeはOpus 4.6モデルそのものであり、単にAPI設定だけが異なって速度を優先する。品質は同一だ
Cerebrasチップの44GB SRAMにモデル全体を載せて推論するというアイデアが興味深い
GPT-5.3-Codex-Sparkのサイズは単一チップのメモリではなく、接続可能なチップ数によって制限される
Cerebrasは40Bより大きいモデルもより高速にサポートするため、SparkはGLM 4.7（355Bパラメータ、32Bアクティブ）に近い可能性が高い
Cerebrasの価格ページ参照
- モデルをシャーディングすると速度が非常に遅くなる。wafer-scaleチップの利点はオンチップメモリ帯域幅にあるので、これを捨てるなら意味がない
  電力効率の面ではGroq、TPU、Nvidiaのソリューションのほうが優れている
- Cerebrasが40Bより大きいモデルをより速く動かせるという点から見ると、元記事の主張は信頼しにくい
- チップを直列接続するとレイテンシだけが増え、スループットは下がらない
- GroqチップのようにSRAMが小さくても大規模モデルは動かせる。したがってチップ接続がそのまま速度低下につながるわけではない
Anthropicはfastリクエストを最新ハードウェアへルーティングしている可能性が高い
TPU、GPUなどさまざまな世代の装置を運用しており、fast modeは最速の装置でのみ処理されると推測される
- GB200のメモリ帯域幅はH100より2.4倍速い。そのため、fast modeは単なるハードウェア差である可能性が高い
  speculative decodingのような技法はすでに使われているので、バッチング改善のためではないだろうと考える
記事末尾の主張どおり、速度よりも正確性が重要だという話は現時点では正しいかもしれない
しかしOpenAI–Cerebrasの協業によってCodex-5.3のような大規模モデルがチップ上で直接動作するようになれば、
高速で高精度なモデルが可能になり、顧客対応業務を代替できる水準になると見ている
- ただし40GB SRAMで5〜7TB級モデルを動かすには数メガワット級の電力が必要になる。Cerebrasの消費電力は非常に大きい
  将来的にLLM専用シリコンが登場すれば、はるかに効率的な時代が来るだろう
- 依然としてAI生成データで学習した際の品質低下の問題が解決していないなら、モデル更新はますます難しくなるだろう
バッチング待ちの問題はcontinuous batchingですでに解決されている
この技術のおかげでClaude Codeが安価に提供できた
関連記事
バスの比喩は少しおかしい。実際にはfast modeがバッチのより大きな比率を占めてスループットを高める方式だ
Anthropicのトラフィック規模を見ると、バッチはほぼ即座に埋まると予想される
ChatGPTがメッセージ送信直後にすぐ応答する理由が気になる
バッチを待たなくてよいのは、トラフィックが非常に多いか、入力をWebSocketでGPUへ事前にストリーミングしているためかもしれない
SRAMとHBMの違いを混同しているケースが多い
HBMはDRAMベースで容量は大きいが遅く、SRAMははるかに高速だが高価だ
Cerebrasは44GBもの巨大なSRAMを1チップに統合して極端な速度を得ている
ただし設計は単純ではなく、実際の性能はさまざまな要因に左右される
- Nvidiaの80GB HBMは外部メモリで、Cerebrasの44GBは内部SRAMだ
  OpenAIはモデルを44GBに収まるよう設計したか、複数チップをチェーン状に接続した可能性がある
リアルタイム音声AIではレイテンシが重要だ
人は800msを超える待ち時間を不自然に感じるため、LLM推論に使える時間は400〜500ms程度だ
Sonnetの速度（80 tok/s）では1文すら厳しいが、CerebrasやGroqの速度（1000 tok/s以上）なら400トークン以上が可能だ
そのため、小型モデルをドメイン特化でチューニングすれば、大型モデルより効率的になりうる
複数の小型エージェントを組み合わせるcouncilアプローチが、速度と品質の両方を取る方法だ
さらにspeculative decodingで頻出の応答を事前予測してTTSを準備すれば、60%の会話で200ms以下の応答が可能になる
- OpenAIは主要研究所の中で唯一音声モデルに注力しているため、この方向でさらに発展していきそうだ

2つの異なる方式による高速LLM推論技法

AnthropicのFast Mode構造

OpenAIのFast Mode構造

技術的比較と評価

高速推論の意味と限界

コミュニティでの議論と追加観察

関連記事

1件のコメント

Hacker Newsのコメント