- 拡散モデル(diffusion) ベースの並列生成方式を用い、従来の 逐次デコーディングLLMの速度限界を克服した言語モデル
- 一度に複数のトークンを生成・修正する 並列リファインメント(parallel refinement) 構造により、5倍以上高速な応答速度を実現
- 1,009トークン/秒 の処理速度、128Kコンテキスト、JSON出力、ツール利用機能 などによりリアルタイムアプリケーションに最適化
- コーディング支援、エージェントループ、音声インターフェース、検索・RAGパイプライン など、レイテンシに敏感な環境で効率性を実証
- OpenAI APIと 完全互換 で、既存インフラを変更せずそのまま統合可能
Mercury 2 概要
- Mercury 2は 世界最速の推論言語モデル
- 目標は プロダクションAI環境で即時の応答性 を提供すること
- 従来のLLMのボトルネックは 自己回帰型の逐次デコーディング(one token at a time) 構造にある
- このため、反復ループ型AIワークフローではレイテンシが蓄積する問題がある
拡散ベースのリアルタイム推論アーキテクチャ
- Mercury 2は 逐次デコーディングの代わりに並列リファインメント(parallel refinement) 方式を採用
- 複数のトークンを同時に生成し、少数のステップで収束
- 「タイプライター」ではなく「編集者」のように、全体の下書きを反復的に修正する形
- その結果、5倍以上高速な生成速度 と 新たな速度曲線 を実現
- 拡散ベース推論は レイテンシとコストを最小化しつつ高品質な推論 を可能にする
性能と仕様
- 速度: NVIDIA Blackwell GPUで 1,009トークン/秒
- 価格: 入力100万トークンあたり $0.25、出力100万トークンあたり $0.75
- 品質: 主要な速度最適化モデルと競合可能な水準
- 機能: 調整可能な推論(tunable reasoning)、128Kコンテキスト、ツール利用、JSONスキーマ準拠出力
- レイテンシ最適化: p95レイテンシ、高同時接続環境での一貫した応答性、安定したスループットを維持
- NVIDIA関係者は、Mercury 2が NVIDIA AIインフラと組み合わせることで1,000トークン/秒超を達成 したと言及
プロダクション活用事例
1. コーディングと編集
- 自動補完、リファクタリング、コードエージェント など、開発者ループ内で即時応答を提供
- Zed共同創業者のMax Brunsfeldは、「思考の一部のように速い提案速度」を強調
2. エージェントループ
- 多段階の推論呼び出しが必要な エージェントワークフロー で呼び出しレイテンシを削減
- ViantはMercury 2を活用し、リアルタイムのキャンペーン最適化と自律型広告システムの強化 を実施
- Wispr Flowは リアルタイム会話と文字起こしリファインメント でMercury 2の速度を評価中
- Skyvernは「GPT-5.2より少なくとも2倍速い」と言及
3. リアルタイム音声とインタラクション
- 音声インターフェース は最も厳しいレイテンシ制約を持つ
- Happyverse AIはMercury 2で 自然なリアルタイム対話型アバター を実現
- OpenCallは、低レイテンシと高品質 により、より応答性の高い音声エージェントを構築できる可能性に言及
4. 検索とRAGパイプライン
- 多段検索・再ランキング・要約プロセスの累積レイテンシ を減らし、リアルタイム推論を可能にする
- SearchBloxはMercury 2との協業により リアルタイム検索AI を実装し、
カスタマーサポート・リスク・電子商取引など多様な分野で 秒単位のインテリジェンス提供 を実現
展開と統合
- Mercury 2は すぐに利用可能 で、OpenAI APIと完全互換
- 既存システムに コード修正なしで統合可能
- エンタープライズ評価時には ワークロード適合性、性能検証、評価設計支援 を提供
- 公式文言: “Mercury 2 is live. Welcome to diffusion.”
1件のコメント
Hacker Newsの意見
1秒あたりの知能(metric) を測るという概念が興味深い
たとえばトークンあたりの知能と、1秒あたりのトークン数をあわせて考える方式だ
個人的には Sonnet 4.6 が Opus 4.6 より5倍速いなら、主に Sonnet を使うと思う
前世代では Sonnet 系は十分に良くなかったが、今は速度がもたらす反復(iteration) の利点が大きく、状況が変わってきた
以前は OpenAI Deep Research を使っていたが、o3-thinking + Web検索のほうがはるかに速く、それでいて十分に賢かった
Cereberas や Groq のようなハードウェアで API を開発すると、反復速度とコストがまったく別次元になる
最近書いた 研究ノート でも、計画は AR モデル、生成は diffusion モデルに分けると性能が大きく向上することを示した
たとえば5トンの石炭で十分なのに30トン使って0.0000000001%改善しても、それは本当の進歩ではない
Composer や Flash バージョンのモデルがその例で、Mercury 2 もこのカテゴリで有力なモデルとして位置づけられる
速いモデルは反復が速く、大きいモデルは最初の試行でより正確だ
現時点では Opus 4.6 が好きだが、Sonnet との効率差をデータで見てみたい
Gemini 3 Flash が好きだった理由もまさにそれで、十分に賢くて信じられないほど速いからだ
簡単なテストをしてみたが、「マラドーナの功績」と聞いたら Mercury 2 が「Dieadona」と誤記した
ローカルの 3B モデルでも完璧に答えられる質問なのに、Mercury 2 は遅くてエラーも多い
Mercury 2 は並列精緻化(parallel refinement) 方式で応答を生成する
複数のトークンを同時に生成して数ステップで収束させる構造で、タイプライター式ではなくエディタのように全体の草稿を磨き上げる形だ
DDPM と SGM が SDE に統合される研究が進んでいるが、transformer の各レイヤーを diffusion の段階として見なせるのか気になる
transformer の L 個のレイヤーが diffusion の L 段階の精緻化に対応するなら、2つのモデル間で相互フィッティング(fitting) が可能かもしれない
Inception の共同創業者であり Chief Scientist として、Mercury 2 や diffusion LM に関する技術的な質問を歓迎する
レイテンシやコスト削減が可能なのか、autoregressive なキャッシュと似た曲線を持つのか、あるいはそもそも適用されないのか知りたい
動的ブロック長を適用できるのかも興味深い
ほとんどの音声システムでは、全体の応答遅延よりもTTFT(time-to-first-token) が重要だ
Mercury 2 の TTFT が他の reasoning モデルと比べてどれほど改善されるのか知りたい
事例リンク を参照
こうした現象の原因が気になる
1秒あたり数千トークンを生成するモデルが登場したことが最も興味深い
こうなればmulti-shot prompting や nudging をしてもユーザーには体感されず、幻覚や非決定的な応答の問題を減らせる
Mercury 2 はエージェント作業の高速な反復を可能にする
1回の試行は精度が低いかもしれないが、実行時間が短いおかげではるかに速く改善できる
たとえば GPT-OSS 20B は単一の 3090 で bs=64 なら約 2k tok/s に達する
diffusion モデルにはまだ確信が持てない
Google なども試しているが、多くの場合Pareto frontier で後れを取っていた
価格/性能比較リンク を参照
同一品質基準なら、Mercury は類似の AR モデルより5倍以上速い
絶対的な知能はまだ Opus や Gemini Pro より低いが、推論速度の面では大きな利点がある
autoregressive transformer よりはるかに未開拓の領域なので、技術的ヘッドルームが大きい
Morph の Fast Apply のような「Mercury Edit」版があれば、ぜひ使ってみたい
diffusion ベースのアプローチは非常に興味深い
従来の transformer は順次トークンを生成するが、diffusion は出力全体を繰り返し精緻化(refine) できる
もしレイテンシ(latency) の問題を解決できたなら、複雑な reasoning 作業に新たな可能性を開けるかもしれない
ローカルハードウェアで動かせるオープンウェイト diffusion LLMがあるのか気になる
コンシューマー向け GPU 環境での性能差を自分で見てみたい
Mercury 2 はCar Wash Testで失敗した
汎用 reasoning モデルというより、**特定用途(例: コーディングエージェント)**に集中し、その分野の SOTA モデル(Qwen3-Coder-Next など)と比較したほうがよさそうだ
長いセッションを回すとしても、精度のほうが重要だ
もしこのモデルがTalaas チップに載るなら、1秒あたり50,000トークン以上を生成できるのだろうかと気になる