Mercury 2: 拡散ベースの超高速推論LLM

(inceptionlabs.ai)

7 ポイント投稿者 GN⁺ 2026-02-26 | 1件のコメント | WhatsAppで共有

拡散モデル(diffusion) ベースの並列生成方式を用い、従来の 逐次デコーディングLLMの速度限界を克服した言語モデル
一度に複数のトークンを生成・修正する 並列リファインメント(parallel refinement) 構造により、5倍以上高速な応答速度を実現
1,009トークン/秒 の処理速度、128Kコンテキスト、JSON出力、ツール利用機能 などによりリアルタイムアプリケーションに最適化
コーディング支援、エージェントループ、音声インターフェース、検索・RAGパイプライン など、レイテンシに敏感な環境で効率性を実証
OpenAI APIと 完全互換 で、既存インフラを変更せずそのまま統合可能

Mercury 2 概要

Mercury 2は 世界最速の推論言語モデル
- 目標は プロダクションAI環境で即時の応答性 を提供すること
従来のLLMのボトルネックは 自己回帰型の逐次デコーディング(one token at a time) 構造にある
- このため、反復ループ型AIワークフローではレイテンシが蓄積する問題がある

拡散ベースのリアルタイム推論アーキテクチャ

Mercury 2は 逐次デコーディングの代わりに並列リファインメント(parallel refinement) 方式を採用
- 複数のトークンを同時に生成し、少数のステップで収束
- 「タイプライター」ではなく「編集者」のように、全体の下書きを反復的に修正する形
その結果、5倍以上高速な生成速度 と 新たな速度曲線 を実現
拡散ベース推論は レイテンシとコストを最小化しつつ高品質な推論 を可能にする

性能と仕様

速度: NVIDIA Blackwell GPUで 1,009トークン/秒
価格: 入力100万トークンあたり $0.25、出力100万トークンあたり $0.75
品質: 主要な速度最適化モデルと競合可能な水準
機能: 調整可能な推論(tunable reasoning)、128Kコンテキスト、ツール利用、JSONスキーマ準拠出力
レイテンシ最適化: p95レイテンシ、高同時接続環境での一貫した応答性、安定したスループットを維持
NVIDIA関係者は、Mercury 2が NVIDIA AIインフラと組み合わせることで1,000トークン/秒超を達成 したと言及

プロダクション活用事例

1. コーディングと編集

自動補完、リファクタリング、コードエージェント など、開発者ループ内で即時応答を提供
Zed共同創業者のMax Brunsfeldは、「思考の一部のように速い提案速度」を強調

2. エージェントループ

多段階の推論呼び出しが必要な エージェントワークフロー で呼び出しレイテンシを削減
ViantはMercury 2を活用し、リアルタイムのキャンペーン最適化と自律型広告システムの強化 を実施
Wispr Flowは リアルタイム会話と文字起こしリファインメント でMercury 2の速度を評価中
Skyvernは「GPT-5.2より少なくとも2倍速い」と言及

3. リアルタイム音声とインタラクション

音声インターフェース は最も厳しいレイテンシ制約を持つ
Happyverse AIはMercury 2で 自然なリアルタイム対話型アバター を実現
OpenCallは、低レイテンシと高品質 により、より応答性の高い音声エージェントを構築できる可能性に言及

4. 検索とRAGパイプライン

多段検索・再ランキング・要約プロセスの累積レイテンシ を減らし、リアルタイム推論を可能にする
SearchBloxはMercury 2との協業により リアルタイム検索AI を実装し、
カスタマーサポート・リスク・電子商取引など多様な分野で 秒単位のインテリジェンス提供 を実現

展開と統合

Mercury 2は すぐに利用可能 で、OpenAI APIと完全互換
既存システムに コード修正なしで統合可能
エンタープライズ評価時には ワークロード適合性、性能検証、評価設計支援 を提供
公式文言: “Mercury 2 is live. Welcome to diffusion.”

1件のコメント

GN⁺ 2026-02-26

Hacker Newsの意見

1秒あたりの知能(metric) を測るという概念が興味深い
たとえばトークンあたりの知能と、1秒あたりのトークン数をあわせて考える方式だ
個人的には Sonnet 4.6 が Opus 4.6 より5倍速いなら、主に Sonnet を使うと思う
前世代では Sonnet 系は十分に良くなかったが、今は速度がもたらす反復(iteration) の利点が大きく、状況が変わってきた
以前は OpenAI Deep Research を使っていたが、o3-thinking + Web検索のほうがはるかに速く、それでいて十分に賢かった
- 「速度そのものが品質の一軸」だと考えている
  Cereberas や Groq のようなハードウェアで API を開発すると、反復速度とコストがまったく別次元になる
  最近書いた研究ノートでも、計画は AR モデル、生成は diffusion モデルに分けると性能が大きく向上することを示した
- この指標にハードウェア単位あたりの効率を加えると、より現実的になると思う
  たとえば5トンの石炭で十分なのに30トン使って0.0000000001%改善しても、それは本当の進歩ではない
- 高速なエージェント反復を目指すモデル群が新たに登場しつつある
  Composer や Flash バージョンのモデルがその例で、Mercury 2 もこのカテゴリで有力なモデルとして位置づけられる
- 近いうちに実際のベンチマークができそうだ
  速いモデルは反復が速く、大きいモデルは最初の試行でより正確だ
  現時点では Opus 4.6 が好きだが、Sonnet との効率差をデータで見てみたい
- 「Intelligence per second」という概念が本当に気に入っている
  Gemini 3 Flash が好きだった理由もまさにそれで、十分に賢くて信じられないほど速いからだ
簡単なテストをしてみたが、「マラドーナの功績」と聞いたら Mercury 2 が「Dieadona」と誤記した
ローカルの 3B モデルでも完璧に答えられる質問なのに、Mercury 2 は遅くてエラーも多い
Mercury 2 は並列精緻化(parallel refinement) 方式で応答を生成する
複数のトークンを同時に生成して数ステップで収束させる構造で、タイプライター式ではなくエディタのように全体の草稿を磨き上げる形だ
DDPM と SGM が SDE に統合される研究が進んでいるが、transformer の各レイヤーを diffusion の段階として見なせるのか気になる
transformer の L 個のレイヤーが diffusion の L 段階の精緻化に対応するなら、2つのモデル間で相互フィッティング(fitting) が可能かもしれない
Inception の共同創業者であり Chief Scientist として、Mercury 2 や diffusion LM に関する技術的な質問を歓迎する
- diffusion モデルでKV キャッシュがどう機能するのか気になる
  レイテンシやコスト削減が可能なのか、autoregressive なキャッシュと似た曲線を持つのか、あるいはそもそも適用されないのか知りたい
- diffusion モデルはテキストブロック単位で reasoning を行っているように見えるが、ブロック間に情報依存がある場合はどう処理するのか気になる
  動的ブロック長を適用できるのかも興味深い
- 発表で言及されていたVoice AIの実際の動作が気になる
  ほとんどの音声システムでは、全体の応答遅延よりもTTFT(time-to-first-token) が重要だ
  Mercury 2 の TTFT が他の reasoning モデルと比べてどれほど改善されるのか知りたい
- 弱い transformer モデルのようにループにはまる現象を経験した
  事例リンクを参照
  こうした現象の原因が気になる
- より高速化するためにdrifting モデルへ発展させる計画があるのかも気になる
1秒あたり数千トークンを生成するモデルが登場したことが最も興味深い
こうなればmulti-shot prompting や nudging をしてもユーザーには体感されず、幻覚や非決定的な応答の問題を減らせる
- こちらも同じ考えだ
  Mercury 2 はエージェント作業の高速な反復を可能にする
  1回の試行は精度が低いかもしれないが、実行時間が短いおかげではるかに速く改善できる
- 一般的なモデルでもbatch inference をすればかなり速い
  たとえば GPT-OSS 20B は単一の 3090 で bs=64 なら約 2k tok/s に達する
diffusion モデルにはまだ確信が持てない
Google なども試しているが、多くの場合Pareto frontier で後れを取っていた
価格/性能比較リンクを参照
- Pareto の観点には反論もある
  同一品質基準なら、Mercury は類似の AR モデルより5倍以上速い
  絶対的な知能はまだ Opus や Gemini Pro より低いが、推論速度の面では大きな利点がある
- テキスト diffusion にはまだ発展の余地が大きい
  autoregressive transformer よりはるかに未開拓の領域なので、技術的ヘッドルームが大きい
- このモデルは高速な編集(edit) 用途に最適そうだ
  Morph の Fast Apply のような「Mercury Edit」版があれば、ぜひ使ってみたい
diffusion ベースのアプローチは非常に興味深い
従来の transformer は順次トークンを生成するが、diffusion は出力全体を繰り返し精緻化(refine) できる
もしレイテンシ(latency) の問題を解決できたなら、複雑な reasoning 作業に新たな可能性を開けるかもしれない
ローカルハードウェアで動かせるオープンウェイト diffusion LLMがあるのか気になる
コンシューマー向け GPU 環境での性能差を自分で見てみたい
Mercury 2 はCar Wash Testで失敗した
汎用 reasoning モデルというより、**特定用途（例: コーディングエージェント）**に集中し、その分野の SOTA モデル（Qwen3-Coder-Next など）と比較したほうがよさそうだ
- 個人的には、速いがエラーの多いモデルより遅くても正確なモデルを好む
  長いセッションを回すとしても、精度のほうが重要だ
もしこのモデルがTalaas チップに載るなら、1秒あたり50,000トークン以上を生成できるのだろうかと気になる
- メモリ遅延のないASIC スタイルの回路として内蔵できるなら、どんなモデルでもとてつもない高速化が可能になりそうだ

Mercury 2: 拡散ベースの超高速推論LLM

Mercury 2 概要

拡散ベースのリアルタイム推論アーキテクチャ

性能と仕様

プロダクション活用事例

1. コーディングと編集

2. エージェントループ

3. リアルタイム音声とインタラクション

4. 検索とRAGパイプライン

展開と統合

関連記事

1件のコメント

Hacker Newsの意見