7 ポイント 投稿者 GN⁺ 2026-02-26 | 1件のコメント | WhatsAppで共有
  • 拡散モデル(diffusion) ベースの並列生成方式を用い、従来の 逐次デコーディングLLMの速度限界を克服した言語モデル
  • 一度に複数のトークンを生成・修正する 並列リファインメント(parallel refinement) 構造により、5倍以上高速な応答速度を実現
  • 1,009トークン/秒 の処理速度、128KコンテキストJSON出力ツール利用機能 などによりリアルタイムアプリケーションに最適化
  • コーディング支援、エージェントループ、音声インターフェース、検索・RAGパイプライン など、レイテンシに敏感な環境で効率性を実証
  • OpenAI APIと 完全互換 で、既存インフラを変更せずそのまま統合可能

Mercury 2 概要

  • Mercury 2は 世界最速の推論言語モデル
    • 目標は プロダクションAI環境で即時の応答性 を提供すること
  • 従来のLLMのボトルネックは 自己回帰型の逐次デコーディング(one token at a time) 構造にある
    • このため、反復ループ型AIワークフローではレイテンシが蓄積する問題がある

拡散ベースのリアルタイム推論アーキテクチャ

  • Mercury 2は 逐次デコーディングの代わりに並列リファインメント(parallel refinement) 方式を採用
    • 複数のトークンを同時に生成し、少数のステップで収束
    • 「タイプライター」ではなく「編集者」のように、全体の下書きを反復的に修正する形
  • その結果、5倍以上高速な生成速度新たな速度曲線 を実現
  • 拡散ベース推論は レイテンシとコストを最小化しつつ高品質な推論 を可能にする

性能と仕様

  • 速度: NVIDIA Blackwell GPUで 1,009トークン/秒
  • 価格: 入力100万トークンあたり $0.25、出力100万トークンあたり $0.75
  • 品質: 主要な速度最適化モデルと競合可能な水準
  • 機能: 調整可能な推論(tunable reasoning)、128Kコンテキストツール利用JSONスキーマ準拠出力
  • レイテンシ最適化: p95レイテンシ、高同時接続環境での一貫した応答性、安定したスループットを維持
  • NVIDIA関係者は、Mercury 2が NVIDIA AIインフラと組み合わせることで1,000トークン/秒超を達成 したと言及

プロダクション活用事例

1. コーディングと編集

  • 自動補完、リファクタリング、コードエージェント など、開発者ループ内で即時応答を提供
  • Zed共同創業者のMax Brunsfeldは、「思考の一部のように速い提案速度」を強調

2. エージェントループ

  • 多段階の推論呼び出しが必要な エージェントワークフロー で呼び出しレイテンシを削減
  • ViantはMercury 2を活用し、リアルタイムのキャンペーン最適化と自律型広告システムの強化 を実施
  • Wispr Flowは リアルタイム会話と文字起こしリファインメント でMercury 2の速度を評価中
  • Skyvernは「GPT-5.2より少なくとも2倍速い」と言及

3. リアルタイム音声とインタラクション

  • 音声インターフェース は最も厳しいレイテンシ制約を持つ
  • Happyverse AIはMercury 2で 自然なリアルタイム対話型アバター を実現
  • OpenCallは、低レイテンシと高品質 により、より応答性の高い音声エージェントを構築できる可能性に言及

4. 検索とRAGパイプライン

  • 多段検索・再ランキング・要約プロセスの累積レイテンシ を減らし、リアルタイム推論を可能にする
  • SearchBloxはMercury 2との協業により リアルタイム検索AI を実装し、
    カスタマーサポート・リスク・電子商取引など多様な分野で 秒単位のインテリジェンス提供 を実現

展開と統合

  • Mercury 2は すぐに利用可能 で、OpenAI APIと完全互換
  • 既存システムに コード修正なしで統合可能
  • エンタープライズ評価時には ワークロード適合性、性能検証、評価設計支援 を提供
  • 公式文言: “Mercury 2 is live. Welcome to diffusion.

1件のコメント

 
GN⁺ 2026-02-26
Hacker Newsの意見
  • 1秒あたりの知能(metric) を測るという概念が興味深い
    たとえばトークンあたりの知能と、1秒あたりのトークン数をあわせて考える方式だ
    個人的には Sonnet 4.6 が Opus 4.6 より5倍速いなら、主に Sonnet を使うと思う
    前世代では Sonnet 系は十分に良くなかったが、今は速度がもたらす反復(iteration) の利点が大きく、状況が変わってきた
    以前は OpenAI Deep Research を使っていたが、o3-thinking + Web検索のほうがはるかに速く、それでいて十分に賢かった

    • 速度そのものが品質の一軸」だと考えている
      Cereberas や Groq のようなハードウェアで API を開発すると、反復速度とコストがまったく別次元になる
      最近書いた 研究ノート でも、計画は AR モデル、生成は diffusion モデルに分けると性能が大きく向上することを示した
    • この指標にハードウェア単位あたりの効率を加えると、より現実的になると思う
      たとえば5トンの石炭で十分なのに30トン使って0.0000000001%改善しても、それは本当の進歩ではない
    • 高速なエージェント反復を目指すモデル群が新たに登場しつつある
      Composer や Flash バージョンのモデルがその例で、Mercury 2 もこのカテゴリで有力なモデルとして位置づけられる
    • 近いうちに実際のベンチマークができそうだ
      速いモデルは反復が速く、大きいモデルは最初の試行でより正確だ
      現時点では Opus 4.6 が好きだが、Sonnet との効率差をデータで見てみたい
    • 「Intelligence per second」という概念が本当に気に入っている
      Gemini 3 Flash が好きだった理由もまさにそれで、十分に賢くて信じられないほど速いからだ
  • 簡単なテストをしてみたが、「マラドーナの功績」と聞いたら Mercury 2 が「Dieadona」と誤記した
    ローカルの 3B モデルでも完璧に答えられる質問なのに、Mercury 2 は遅くてエラーも多い

  • Mercury 2 は並列精緻化(parallel refinement) 方式で応答を生成する
    複数のトークンを同時に生成して数ステップで収束させる構造で、タイプライター式ではなくエディタのように全体の草稿を磨き上げる形
    DDPM と SGM が SDE に統合される研究が進んでいるが、transformer の各レイヤーを diffusion の段階として見なせるのか気になる
    transformer の L 個のレイヤーが diffusion の L 段階の精緻化に対応するなら、2つのモデル間で相互フィッティング(fitting) が可能かもしれない

  • Inception の共同創業者であり Chief Scientist として、Mercury 2 や diffusion LM に関する技術的な質問を歓迎する

    • diffusion モデルでKV キャッシュがどう機能するのか気になる
      レイテンシやコスト削減が可能なのか、autoregressive なキャッシュと似た曲線を持つのか、あるいはそもそも適用されないのか知りたい
    • diffusion モデルはテキストブロック単位で reasoning を行っているように見えるが、ブロック間に情報依存がある場合はどう処理するのか気になる
      動的ブロック長を適用できるのかも興味深い
    • 発表で言及されていたVoice AIの実際の動作が気になる
      ほとんどの音声システムでは、全体の応答遅延よりもTTFT(time-to-first-token) が重要だ
      Mercury 2 の TTFT が他の reasoning モデルと比べてどれほど改善されるのか知りたい
    • 弱い transformer モデルのようにループにはまる現象を経験した
      事例リンク を参照
      こうした現象の原因が気になる
    • より高速化するためにdrifting モデルへ発展させる計画があるのかも気になる
  • 1秒あたり数千トークンを生成するモデルが登場したことが最も興味深い
    こうなればmulti-shot prompting や nudging をしてもユーザーには体感されず、幻覚や非決定的な応答の問題を減らせる

    • こちらも同じ考えだ
      Mercury 2 はエージェント作業の高速な反復を可能にする
      1回の試行は精度が低いかもしれないが、実行時間が短いおかげではるかに速く改善できる
    • 一般的なモデルでもbatch inference をすればかなり速い
      たとえば GPT-OSS 20B は単一の 3090 で bs=64 なら約 2k tok/s に達する
  • diffusion モデルにはまだ確信が持てない
    Google なども試しているが、多くの場合Pareto frontier で後れを取っていた
    価格/性能比較リンク を参照

    • Pareto の観点には反論もある
      同一品質基準なら、Mercury は類似の AR モデルより5倍以上速い
      絶対的な知能はまだ Opus や Gemini Pro より低いが、推論速度の面では大きな利点がある
    • テキスト diffusion にはまだ発展の余地が大きい
      autoregressive transformer よりはるかに未開拓の領域なので、技術的ヘッドルームが大きい
    • このモデルは高速な編集(edit) 用途に最適そうだ
      Morph の Fast Apply のような「Mercury Edit」版があれば、ぜひ使ってみたい
  • diffusion ベースのアプローチは非常に興味深い
    従来の transformer は順次トークンを生成するが、diffusion は出力全体を繰り返し精緻化(refine) できる
    もしレイテンシ(latency) の問題を解決できたなら、複雑な reasoning 作業に新たな可能性を開けるかもしれない

  • ローカルハードウェアで動かせるオープンウェイト diffusion LLMがあるのか気になる
    コンシューマー向け GPU 環境での性能差を自分で見てみたい

  • Mercury 2 はCar Wash Testで失敗した
    汎用 reasoning モデルというより、**特定用途(例: コーディングエージェント)**に集中し、その分野の SOTA モデル(Qwen3-Coder-Next など)と比較したほうがよさそうだ

    • 個人的には、速いがエラーの多いモデルより遅くても正確なモデルを好む
      長いセッションを回すとしても、精度のほうが重要だ
  • もしこのモデルがTalaas チップに載るなら、1秒あたり50,000トークン以上を生成できるのだろうかと気になる

    • メモリ遅延のないASIC スタイルの回路として内蔵できるなら、どんなモデルでもとてつもない高速化が可能になりそうだ