3 ポイント 投稿者 GN⁺ 2026-03-18 | 1件のコメント | WhatsAppで共有
  • GPT‑5.4の性能を高速かつ効率的な形で実装
  • GPT‑5.4 miniはコーディング・推論・マルチモーダル理解・ツール利用でGPT‑5 miniと比べて大幅に向上し、速度は2倍以上高速
  • GPT‑5.4 nanoは最小かつ最も低コストなモデルで、分類・データ抽出・ランキング・補助的なコーディング作業に適している
  • 両モデルともレイテンシが重要なワークロード向けに設計されており、応答性が求められるコーディング支援やリアルタイムのマルチモーダル応用に有利
  • これらのモデルにより、速度・コスト・性能のバランスを最適化した軽量AIシステムの構成が可能になる

GPT‑5.4 miniとnanoの概要

  • GPT‑5.4 miniとnanoはGPT‑5.4の小型・高効率版であり、大量処理環境での高速応答を目標に設計されている
    • miniはGPT‑5 miniと比べて、コーディング、推論、マルチモーダル理解、ツール利用で向上
    • nanoはGPT‑5 nanoより性能が改善された最小かつ最も低コストなモデル
  • 両モデルはレイテンシが製品体験に直接影響する環境(コーディング支援、サブエージェント、スクリーンショット解析、リアルタイム画像推論など)に最適化されている
  • OpenAIは「最良のモデルが常に最大のモデルとは限らない」とし、高速な応答性と安定したツール利用能力を強調している

性能比較

  • 主なベンチマークでGPT‑5.4 miniはGPT‑5 miniより高いスコアを記録し、GPT‑5.4に近い性能を示す
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Terminal‑Bench 2.0、Toolathlon、GPQA Diamondなどでも、miniは性能に対する速度効率が高い
  • nanoは速度とコストが重要な環境で最適なコスト効率を提供する

コーディングワークフロー

  • 両モデルは高速な反復が必要なコーディング環境に適している
    • コード編集、コードベース探索、フロントエンド生成、デバッグループなどで低レイテンシで動作
  • GPT‑5.4 miniはGPT‑5 miniより**同程度のレイテンシでより高い通過率(pass rate)**を記録し、GPT‑5.4水準に近い
  • Codex環境では大規模モデルが計画・判断を行い、miniが詳細作業を並列処理するサブエージェントの役割を担う
    • 例: コード検索、大規模ファイルのレビュー、文書処理など
  • この構成は小型モデルの速度と性能が向上するほどさらに有用になる

コンピュータ利用とマルチモーダル処理

  • GPT‑5.4 miniはコンピュータ利用関連のマルチモーダル作業でも強力な性能を示す
    • 複雑なユーザーインターフェースのスクリーンショットを素早く解析して作業を実行
    • OSWorld‑VerifiedでGPT‑5.4に近く、GPT‑5 miniを大きく上回る

提供形態と価格

  • GPT‑5.4 mini
    • API、Codex、ChatGPTで利用可能
    • 対応機能: テキスト・画像入力、ツール利用、関数呼び出し、Web・ファイル検索、コンピュータ利用、スキル
    • 400kコンテキストウィンドウ、入力100万トークンあたり**$0.75**、出力100万トークンあたり**$4.50**
    • CodexではGPT‑5.4クォータの30%のみを使用し、単純なコーディング作業を約1/3のコストで処理可能
    • ChatGPTではFree・Goユーザーに「Thinking」機能として提供され、他のユーザーにはGPT‑5.4 Thinkingの**代替モデル(fallback)**として使われる
  • GPT‑5.4 nano
    • API専用で提供
    • 入力100万トークンあたり**$0.20**、出力100万トークンあたり**$1.25**

追加ベンチマーク詳細結果

  • コーディング
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • ツール呼び出し
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench(通信): mini 93.4%, nano 92.5%
  • 知能評価
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • マルチモーダル・ビジョン
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419(低いほど優秀)
  • ロングコンテキスト
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

総合評価

  • GPT‑5.4 miniとnanoは速度・コスト・性能のバランスを最大化した軽量モデルであり、大規模なリアルタイム応用に適している
  • miniはサブエージェント構成やマルチモーダルシステムで中核的な役割を果たせ、nanoは単純で大量処理の作業に効率的
  • OpenAIはこの2つのモデルを通じて、さまざまな規模のAIシステムを柔軟に構成できる基盤を提供する

1件のコメント

 
GN⁺ 2026-03-18
Hacker News の意見
  • API 経由で現在の速度を確認してみたが、かなり印象的だった
    GPT-5 Mini は通常 55〜60 tokens/s、priority モードでは 115〜120 t/s 程度で、GPT-5.4 Mini は平均 180〜190 t/s、GPT-5.4 Nano は約 200 t/s 水準だった
    比較すると Gemini 3 Flash は約 130 t/s(Gemini API)、Vertex では 120 t/s 程度だった
    価格も併せて見ると、Claude Opus 4.6 は $5/$25、GPT-5.4 は $2.5/$15、Gemini 3.1 Pro は $2/$12 などとなっている

    • token/s だけでは十分ではない。TTFT(最初のトークンまでの待ち時間) と全体のレイテンシも併せて見ないと、実際の API 利用性能は分からない
    • 速度だけ速くても 思考段階(reasoning) が長ければ、むしろ遅くなり得る。token/s が低くても、集中した思考ならより効率的かもしれない
    • Google のほうがリソースやコスト面で有利そうなのに、人々が GPT や Claude を選ぶ理由が気になる
    • 出力速度だけでなく、プロンプト処理速度 も主要プロバイダごとに測定してほしい
    • 低価格モデルの価格がかなり上がった。以前は気軽に使えたが、今は負担に感じる
  • 複数モデルのペリカン画像を比較した グリッド を共有

    • こういう作業はもうおそらく 学習データ に含まれている気がする
    • 一部の画像は 悪夢のような雰囲気 だが、だからこそ気に入っている
    • 個人的には nano xhigh バージョンのペリカンがいちばん気に入った
    • nano medium はサーバーが燃えていた時点で生成されたように見える
  • GPT モデルは会話用途には良いが、エージェント型の作業(agentic work) では体験が良くなかった
    速度も遅く、指示もあまりうまく理解しない。同じプロンプトでも他のモデルはうまく動く

    • 5.4 Mini は 音声アプリケーション に向くほど速いが、指示実行能力は不足している。Qwen 3.5 9B を微調整してみるつもりだ
    • Gemini 3.1 と Claude Opus 4.6 は基準を通過したが、ChatGPT 系は対話型に寄りすぎている。文脈維持が弱く、結果の検証 が必要だ
    • GPT 5.2 Codex は文脈を頻繁に見失い、Claude は GitHub Copilot ではるかに自然に動く。GPT は単純なリファクタリングにも 20 分かかる
    • 5.4 Pro でデータ分析をしたが、あまりにも遅かった。Sonnet 4.6 のほうがずっと速かった。ほとんどの作業には Haiku くらいで十分だ
    • 逆に私は Codex が最も優れていると感じる。ただ、あまりに 冷淡なスタイル で会話が短く、介入しづらい点は惜しい
      Opus は協調的だが、ときどき妙な提案をする。Codex のプロンプトは OpenCode リポジトリ にある
  • 私は 小型(mini)モデルのリリース のほうが SOTA より意味があると思う
    大型モデルはすでに十分良く、差を感じにくいが、小型モデルはバージョンが変わると 品質の跳躍 が大きい
    しかもずっと安価なので、実サービスへ適用しやすい

    • Gemini Web アプリは自動で Flash に切り替わるが、回答が変だったり論理がずれたりするとすぐ分かる。日常用途にはまだ不足だが、単純な自動化には十分良い
    • GPT 5.4 は Svelte UI 作業に弱く、Gemini は議論よりすぐ実装しようとする傾向がある。Claude は TypeScript で any 型を乱用する
    • 比較結果 を見ると、5 mini と 5.4 mini の差は小さいが、5.4 mini は 不安定だが正答率が高い
    • 実際には価格は上昇傾向だ。GPT 5.4 mini は 5.0 mini より約 3 倍高い。Gemini 3.1 Flash Lite も以前より高い
    • オープンモデルと比べてもそれほど安くなく、知能も低い。レイテンシ を最小化しなければならない場合でなければ、あえて使う理由は少ない
  • LLM の評価をなぜ 勘(「vibe check」) で行うのか疑問だ
    ほとんどの比較は体系的な実験ではなく、即興的なテストに基づいている

    • 単なるエンジニアリング上の問題ではない。知能と能力の定義 自体が不完全だからだ。既存ベンチマークには欠陥が多い
    • ベンチマークを作れば「無意味だ」という不満が出るが、勘で評価するのはそれよりずっと悪い
    • 公開された評価セットはすぐ ダークフォレスト問題 で無力化される。予測力も弱いので、むしろ非公式なアプローチを科学的に扱うほうがよいと思う
    • 「勘で評価し、勘でコーディングする」という冗談も出ている
  • ベンチマークによれば GPT 5.4 Nano は GPT-5 Mini より大半の領域で優れているが、価格はむしろ上昇 している
    GPT 5 mini: 入力 $0.25 / 出力 $2.00 → GPT 5.4 mini: 入力 $0.75 / 出力 $4.50

    • モデルは高くなったが、性能対価格効率 は改善している。低性能モデルを維持する理由は減ったのかもしれない
    • より大きなモデルなのだから、サービングコストが低いはずはない。性能が上がったなら高いのは当然だ
  • OSWorld のスコアが興味深い。Mini は 72.1%、人間基準は 72.4% でほぼ同じだ
    したがって特定の失敗ケースがないなら、Mini をデフォルトで使っても差し支えない
    ただし マルチモデルパイプライン で nano サブエージェントがメッセージ履歴全体をそのまま渡すなら、「安価な段階」の意味がなくなる
    実際、どの程度のコンテキスト長で nano がもはや速くなくなるのか測定した人がいるのか気になる

    • (これはボットっぽい)
  • 私のベンチマークでも Nano が Mini より良い結果を示した
    5.4 mini には 一貫性の問題 があり、temperature 0 でも正答と誤答が混ざって出てくる
    比較リンク を参照

  • 5.4 Mini の OSWorld スコアには驚いた。過去にはモデルが遅く不正確で、リアルタイムエージェントには使えなかったが、今は可能性が見えてきた

    • 一部は OSWorld を「OpenClaw」などと言って軽視するが、安全な全体相互作用評価 として強力だ
      たとえば Win32 アプリと Web 版の挙動を比較して自動テストを作れる。大規模に拡張する場合でもコスト効率が高い
  • SWE-Bench 基準で見ると、5.4 mini high は GPT 5.4 low と精度・価格は似ているが、レイテンシ はより長い(254 秒 vs 171 秒)
    単純な作業には低い effort レベルで回すほうがコスト削減に有利だ。ただし 長いコンテキスト処理性能 は依然として弱い