- GPT‑5.4の性能を高速かつ効率的な形で実装
- GPT‑5.4 miniはコーディング・推論・マルチモーダル理解・ツール利用でGPT‑5 miniと比べて大幅に向上し、速度は2倍以上高速
- GPT‑5.4 nanoは最小かつ最も低コストなモデルで、分類・データ抽出・ランキング・補助的なコーディング作業に適している
- 両モデルともレイテンシが重要なワークロード向けに設計されており、応答性が求められるコーディング支援やリアルタイムのマルチモーダル応用に有利
- これらのモデルにより、速度・コスト・性能のバランスを最適化した軽量AIシステムの構成が可能になる
GPT‑5.4 miniとnanoの概要
- GPT‑5.4 miniとnanoはGPT‑5.4の小型・高効率版であり、大量処理環境での高速応答を目標に設計されている
- miniはGPT‑5 miniと比べて、コーディング、推論、マルチモーダル理解、ツール利用で向上
- nanoはGPT‑5 nanoより性能が改善された最小かつ最も低コストなモデル
- 両モデルはレイテンシが製品体験に直接影響する環境(コーディング支援、サブエージェント、スクリーンショット解析、リアルタイム画像推論など)に最適化されている
- OpenAIは「最良のモデルが常に最大のモデルとは限らない」とし、高速な応答性と安定したツール利用能力を強調している
性能比較
- 主なベンチマークでGPT‑5.4 miniはGPT‑5 miniより高いスコアを記録し、GPT‑5.4に近い性能を示す
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Terminal‑Bench 2.0、Toolathlon、GPQA Diamondなどでも、miniは性能に対する速度効率が高い
- nanoは速度とコストが重要な環境で最適なコスト効率を提供する
コーディングワークフロー
- 両モデルは高速な反復が必要なコーディング環境に適している
- コード編集、コードベース探索、フロントエンド生成、デバッグループなどで低レイテンシで動作
- GPT‑5.4 miniはGPT‑5 miniより**同程度のレイテンシでより高い通過率(pass rate)**を記録し、GPT‑5.4水準に近い
- Codex環境では大規模モデルが計画・判断を行い、miniが詳細作業を並列処理するサブエージェントの役割を担う
- 例: コード検索、大規模ファイルのレビュー、文書処理など
- この構成は小型モデルの速度と性能が向上するほどさらに有用になる
コンピュータ利用とマルチモーダル処理
- GPT‑5.4 miniはコンピュータ利用関連のマルチモーダル作業でも強力な性能を示す
- 複雑なユーザーインターフェースのスクリーンショットを素早く解析して作業を実行
- OSWorld‑VerifiedでGPT‑5.4に近く、GPT‑5 miniを大きく上回る
提供形態と価格
- GPT‑5.4 mini
- API、Codex、ChatGPTで利用可能
- 対応機能: テキスト・画像入力、ツール利用、関数呼び出し、Web・ファイル検索、コンピュータ利用、スキル
- 400kコンテキストウィンドウ、入力100万トークンあたり**$0.75**、出力100万トークンあたり**$4.50**
- CodexではGPT‑5.4クォータの30%のみを使用し、単純なコーディング作業を約1/3のコストで処理可能
- ChatGPTではFree・Goユーザーに「Thinking」機能として提供され、他のユーザーにはGPT‑5.4 Thinkingの**代替モデル(fallback)**として使われる
- GPT‑5.4 nano
- API専用で提供
- 入力100万トークンあたり**$0.20**、出力100万トークンあたり**$1.25**
追加ベンチマーク詳細結果
- コーディング
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- ツール呼び出し
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench(通信): mini 93.4%, nano 92.5%
- 知能評価
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- マルチモーダル・ビジョン
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419(低いほど優秀)
- ロングコンテキスト
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
総合評価
- GPT‑5.4 miniとnanoは速度・コスト・性能のバランスを最大化した軽量モデルであり、大規模なリアルタイム応用に適している
- miniはサブエージェント構成やマルチモーダルシステムで中核的な役割を果たせ、nanoは単純で大量処理の作業に効率的
- OpenAIはこの2つのモデルを通じて、さまざまな規模のAIシステムを柔軟に構成できる基盤を提供する
1件のコメント
Hacker News の意見
API 経由で現在の速度を確認してみたが、かなり印象的だった
GPT-5 Mini は通常 55〜60 tokens/s、priority モードでは 115〜120 t/s 程度で、GPT-5.4 Mini は平均 180〜190 t/s、GPT-5.4 Nano は約 200 t/s 水準だった
比較すると Gemini 3 Flash は約 130 t/s(Gemini API)、Vertex では 120 t/s 程度だった
価格も併せて見ると、Claude Opus 4.6 は $5/$25、GPT-5.4 は $2.5/$15、Gemini 3.1 Pro は $2/$12 などとなっている
複数モデルのペリカン画像を比較した グリッド を共有
GPT モデルは会話用途には良いが、エージェント型の作業(agentic work) では体験が良くなかった
速度も遅く、指示もあまりうまく理解しない。同じプロンプトでも他のモデルはうまく動く
Opus は協調的だが、ときどき妙な提案をする。Codex のプロンプトは OpenCode リポジトリ にある
私は 小型(mini)モデルのリリース のほうが SOTA より意味があると思う
大型モデルはすでに十分良く、差を感じにくいが、小型モデルはバージョンが変わると 品質の跳躍 が大きい
しかもずっと安価なので、実サービスへ適用しやすい
LLM の評価をなぜ 勘(「vibe check」) で行うのか疑問だ
ほとんどの比較は体系的な実験ではなく、即興的なテストに基づいている
ベンチマークによれば GPT 5.4 Nano は GPT-5 Mini より大半の領域で優れているが、価格はむしろ上昇 している
GPT 5 mini: 入力 $0.25 / 出力 $2.00 → GPT 5.4 mini: 入力 $0.75 / 出力 $4.50
OSWorld のスコアが興味深い。Mini は 72.1%、人間基準は 72.4% でほぼ同じだ
したがって特定の失敗ケースがないなら、Mini をデフォルトで使っても差し支えない
ただし マルチモデルパイプライン で nano サブエージェントがメッセージ履歴全体をそのまま渡すなら、「安価な段階」の意味がなくなる
実際、どの程度のコンテキスト長で nano がもはや速くなくなるのか測定した人がいるのか気になる
私のベンチマークでも Nano が Mini より良い結果を示した
5.4 mini には 一貫性の問題 があり、temperature 0 でも正答と誤答が混ざって出てくる
比較リンク を参照
5.4 Mini の OSWorld スコアには驚いた。過去にはモデルが遅く不正確で、リアルタイムエージェントには使えなかったが、今は可能性が見えてきた
たとえば Win32 アプリと Web 版の挙動を比較して自動テストを作れる。大規模に拡張する場合でもコスト効率が高い
SWE-Bench 基準で見ると、5.4 mini high は GPT 5.4 low と精度・価格は似ているが、レイテンシ はより長い(254 秒 vs 171 秒)
単純な作業には低い effort レベルで回すほうがコスト削減に有利だ。ただし 長いコンテキスト処理性能 は依然として弱い