- ChatGPT、API、Codex全体に適用される最新のフロンティアモデルで、推論・コーディング・エージェントワークフロー性能を統合
- ネイティブのcomputer-use機能を内蔵し、エージェントがWebサイトとソフトウェアを直接操作しながら複雑なワークフローを実行可能
- 最大1Mトークンのコンテキストウィンドウをサポートし、ツール検索と効率的なトークン使用で速度とコストを削減
- ChatGPTのThinkingモードでは、応答の途中で思考の進め方を調整でき、ディープWebリサーチとコンテキスト保持力が向上
- GPT-5.3-Codexのコーディング性能を取り込み、スプレッドシート・プレゼンテーション・文書作業の精度と効率を大幅に改善
GPT‑5.4概要
- GPT‑5.4はChatGPT(Thinkingモード)、API、Codexに同時展開された最も強力で効率的なモデル
- GPT‑5.4 Proバージョンは複雑な作業で最大性能を提供
- GPT‑5.3‑Codexのコーディング能力を統合し、スプレッドシート・プレゼンテーション・文書作業など専門業務環境での精度と効率性を強化
- ツール・ソフトウェア環境間の連携性が改善され、実際の業務遂行時の往復のやり取りが減少
ChatGPTのThinkingモード改善
- GPT-5.4 Thinkingは作業開始時に思考プロセスの**事前計画(preamble)**を提示し、ユーザーが応答生成の途中で方向を調整可能
- 追加ターンなしで最終出力がユーザー意図により正確に合致するよう設計
- ディープWebリサーチ性能が向上し、特に非常に具体的なクエリで効果的
- 長い思考を要する質問で以前のコンテキスト保持能力が改善され、より高品質な回答をより速く提供
- chatgpt.comとAndroidアプリで即時利用可能、iOSアプリは後日対応予定
コンピュータ操作およびビジョン機能
- GPT-5.4は汎用モデルとして初めてネイティブcomputer-use機能を搭載したモデル
- Playwrightのようなライブラリを通じたコードベースのコンピュータ操作と、スクリーンショットベースのマウス・キーボード命令の発行の両方をサポート
- 開発者メッセージを通じて挙動を調整でき、**カスタム確認ポリシー(confirmation policy)**で許容リスク水準を個別設定可能
- OSWorld-Verifiedで75.0%を達成し、人間性能72.4%を上回り、GPT-5.2の47.3%から大幅改善
- WebArena-VerifiedでDOM + スクリーンショットベースの相互作用により67.3%を達成(GPT-5.2: 65.4%)
- Online-Mind2Webでスクリーンショットベースの観察のみで92.8%を達成(ChatGPT Atlas Agent Mode: 70.9%)
視覚認識および文書パースの改善
- 改善された汎用視覚認識能力がコンピュータ操作機能の基盤
- MMMU-Proでツール未使用時81.2%(GPT-5.2: 79.5%)、ツール使用時82.1%(GPT-5.2: 80.4%)
- OmniDocBenchで推論なしの平均誤り(正規化編集距離)0.109を達成(GPT-5.2: 0.140)
- 新しい
original画像入力ディテールレベルを導入: 最大10.24Mピクセルまたは最大辺6000pxまで完全忠実度の認識をサポート
highレベルは最大2.56Mピクセルまたは最大辺2048pxへ拡張
- 初期APIユーザーテストで位置把握能力、画像理解、クリック精度における強い改善を確認
コーディング性能
- GPT-5.3-Codexのコーディング面での強みと、専門業務・コンピュータ操作機能を結合
- SWE-Bench Proで57.7%を達成(GPT-5.3-Codex: 56.8%、GPT-5.2: 55.6%)
- すべての推論レベルでGPT-5.3-Codexより低レイテンシを提供
- Codexで**/fastモード**を有効にすると最大1.5倍高速なトークン速度を提供し、同一モデル・同一知能水準を維持
- APIではPriority Processingを通じて同じ高速性能にアクセス可能
- 複雑なフロントエンド作業で従来モデルより明らかに美しく機能的な成果物を生成
- 実験的なCodexスキル**"Playwright (Interactive)"**を公開: WebおよびElectronアプリの視覚的デバッグをサポートし、開発中のアプリをリアルタイムでテスト可能
Tool Search機能
- 従来はすべてのツール定義がプロンプトに事前に含まれ、数千〜数万トークンを消費していたが、Tool Searchにより軽量なツール一覧のみを提供し、必要時に定義を動的取得
- ツール集約型ワークフローでトークン使用量を劇的に削減し、キャッシュを保持して速度とコストの両方を改善
- 数万トークン規模のMCPサーバーツール定義で特に効率改善が大きい
- ScaleのMCP Atlasベンチマーク250タスク基準で、36個のMCPサーバー全体をTool Searchへ切り替えると総トークン使用量が47%減少し、精度は同一を維持
ツール呼び出しおよびエージェント性能
- GPT-5.4は推論中のツール使用のタイミングと方法における精度と効率性を改善
- Toolathlonで54.6%を達成(GPT-5.2: 45.7%)、より少ないターンでより高い精度
- メールの読み取り、課題添付ファイルの抽出、アップロード、採点、結果のスプレッドシート記録など多段階の実際のツール活用作業を評価
- 推論なしの低レイテンシシナリオでもτ2-bench Telecomで64.3%を達成(GPT-5.2: 57.2%、GPT-4.1: 43.6%)
- BrowseCompで82.7%、GPT-5.4 Proは**89.3%**で新たな最高性能を達成(GPT-5.2: 65.8%)
- 「干し草の山から針を探す」型の難しい情報探索で、複数ラウンドにわたり継続的に検索する能力が向上
専門業務および知的労働の性能
- GDPvalで米国GDP上位9産業・44職種の実際の業務成果物(営業プレゼンテーション、会計スプレッドシート、救急診療スケジュール、製造ダイアグラム、短編動画など)を評価
- GPT-5.4: **83.0%**が専門家レベルと一致または上回る(GPT-5.2: 70.9%)
- 内部の投資銀行スプレッドシートモデリングベンチマークで平均87.3%(GPT-5.2: 68.4%)
- プレゼンテーション評価では人間評価者がGPT-5.4の成果物を**68.0%**選好(美的完成度、視覚的多様性、画像生成活用度が優秀)
- ハルシネーションと誤りの減少: ユーザーが事実誤りを報告したプロンプト基準で、個別主張の虚偽可能性が33%減少し、回答全体に誤りが含まれる可能性が18%減少(GPT-5.2比)
1Mコンテキストウィンドウおよび長文コンテキスト性能
- 最大1Mトークンコンテキストをサポートし、エージェントが長い範囲の作業を計画・実行・検証可能
- Codexで実験的に1Mコンテキストウィンドウをサポートし、
model_context_windowとmodel_auto_compact_token_limit設定で構成
- 標準の272Kコンテキストウィンドウを超えるリクエストは2倍料金で課金
- Graphwalks BFS 0K–128K: 93.0%、256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 4K–8Kで97.3%、128K–256Kで79.3%、512K–1Mで36.6%
抽象推論および学術ベンチマーク
- ARC-AGI-1 (Verified): 93.7%(GPT-5.2: 86.2%)、ARC-AGI-2 (Verified): 73.3%(GPT-5.2: 52.9%)
- GPT-5.4 ProはARC-AGI-2で**83.3%**を達成
- Frontier Science Research: 33.0%(GPT-5.2: 25.2%)、FrontierMath Tier 1–3: 47.6%(GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1%(GPT-5.2: 18.8%)、GPT-5.4 Proは38.0%
- GPQA Diamond: 92.8%(GPT-5.2: 92.4%)
- Humanity's Last Exam: ツール未使用39.8%、ツール使用52.1%(GPT-5.2: それぞれ34.5%、45.5%)
- GPT-5.4 Proはツール使用時**58.7%**を達成
安全性およびセキュリティ
- GPT-5.3-Codexで導入した保護措置を継続的に改善し、Preparedness FrameworkではHigh cyber capabilityに分類
- 拡張されたサイバー安全スタック: 監視システム、信頼ベースのアクセス制御、Zero Data Retention(ZDR)領域での非同期ブロックを含む
- サイバーセキュリティ能力のデュアルユース特性を考慮した予防的展開アプローチを採用し、分類器精度の改善を進める中で一部**誤検知(false positive)**の可能性あり
- 不要な拒否と過度な手がかり応答を減らしつつ、不正利用防止の保護を維持することを目標
- Chain-of-Thought(CoT)モニタリング研究を継続し、新しいオープンソース評価ツールCoT controllabilityを公開
- GPT-5.4 ThinkingはCoT制御能力が低く、モデルが推論を隠しにくい点で安全性にプラス
価格および提供情報
- APIモデル名:
gpt-5.4、Proバージョン: gpt-5.4-pro
- API価格(Mトークン基準):
- gpt-5.4: 入力$2.50、キャッシュ入力$0.25、出力$15
- gpt-5.4-pro: 入力$30、出力$180
- gpt-5.2: 入力$1.75、キャッシュ入力$0.175、出力$14
- GPT-5.2比でトークン単価は高いが、トークン効率の向上により作業当たりの総トークン使用量は減少
- BatchおよびFlex価格は標準の半額、Priority Processingは標準の2倍
- ChatGPTでGPT-5.4 ThinkingはPlus、Team、Proユーザーに即時提供され、GPT-5.2 Thinkingを置き換え
- GPT-5.2 Thinkingは有料ユーザー向けLegacy Modelsセクションで3か月維持された後、2026年6月5日に終了
- Enterprise、Eduプランは管理者設定で早期アクセスを有効化可能
- GPT-5.4 ProはProおよびEnterpriseプランで提供
- GPT-5.4はGPT-5.3-Codexのフロンティア級コーディング能力を統合した初のメインライン推論モデルであり、InstantモデルとThinkingモデルは今後それぞれ異なる速度で進化する予定
2件のコメント
> Codexで
/fastモードを有効にすると、最大1.5倍高速なトークン速度を実現しつつ、同一モデル・同一知能レベルを維持。APIではPriority Processing。> Priority Processingは標準の2倍の価格
> 標準の272Kコンテキストウィンドウを超えるリクエストは2倍料金で課金
Hacker Newsのコメント
ブログ記事の下部にある 「Ask ChatGPT」ボックス が面白かった
記事の内容を要約してほしいと入力すると新しいウィンドウが開くが、「外部URLにはアクセスできない」という返答しか返ってこない
この機能が実際には動作していないことをOpenAIが把握しているのか気になる
ログイン状態では正常に動作し、チームに バグレポート を送った
共有されたサンプルリンク を参照
自分もログイン状態だった
おそらくログイン有無によって外部URLへのアクセス権限が変わるのだろう
Anthropicのほうがこうした細かなUXにより気を配っているように見える
OpenAIのモデルラインアップは複雑になりすぎたと感じる
GPT‑5.1、5.2、5.4にCodex 5.3、Instant 5.3まで混在している
一方でAnthropicは3つのモデルだけを明確に区別しており、Googleはいまだに Previewモデル ばかりだ
開発者として安定したバージョンを使いにくいという不満がある
いつもそのどちらか一方しか選べない状況が繰り返される
エンジニアなら 5.4 > 5.2 > 5.1 くらいは簡単に理解できる
3.xはまだPreviewのままで混乱する
Opus、Sonnet、Haikuの間でバージョンがばらばらだし、価格体系 も複雑だ
結局どの会社も似たような問題を抱えている
APIさえ差し替えれば簡単に 切り替え られる時代だ
GPT‑5.4の核心は 1Mトークンのコンテキストウィンドウ だ
公式価格表 によれば200k超でも追加料金はない
Opus 4.6よりはるかに安いが、実際に1Mコンテキストが実利をもたらすかは疑問だ
更新されたドキュメント によればGPT‑5.3‑Codexを置き換えるとのこと
272Kトークンを超えると入力は2倍、出力は1.5倍の料金がかかる
トークンが増えるほどコストとレイテンシが増える
OpenAIの内部テストでは、短いコンテキストのほうが大半のケースでより効率的だった
(社員コメント)
作業あたりのコスト で比較すべきだ
実際にはGPT‑5.xとOpusのコストは同程度だ
ベンチマークより実務での成果のほうが重要だ
実際には 開発者ドキュメント のほうが正確だ
基本料金が適用されるのは272k以下までだ
Anthropicは長時間の作業に対するRLでこれを緩和しようという計画を持っている
GPT‑5.4を何度か使ってみたが、文章の明瞭さと分析力 が印象的だった
5.3‑Codexよりずっと自然で人間らしい文体を使う
自分のAGENTS.mdがシンプルな言語を要求しているせいかもしれない
そのパターンがまた繰り返されている気がする
Claudeは比較的ゆるい感じがする
OpenAIは8か月のあいだ バージョン番号の混乱 を避けていたのに、結局また複雑になった
GPT‑5.3 Instant、GPT‑5.4 Thinking など名前が入り混じっている
用途に合わせて使うべきだ
ブログの RPGゲームのデモ が印象的だった
「Battle Brothers」に近いレベルで、自律的エンジニアリングの良い例だった
この速度ならローコードツール市場が脅かされるかもしれない
Codexがウェブアプリを視覚的にデバッグしてテストできるようになった
軍事およびセキュリティ分野でもこのモデルは活用されそうだ
GPT‑5.4が ブラウザのスクリーンショットを解釈 してGmail UIをクリックし、メールを送る機能を実演していた
ただこうしたやり方より、Gmail APIを使うほうが効率的だと思う
スクリーンショットはドキュメント、API、探索手段を一度に提供してくれる
成功すれば汎用性は高いが、APIベースのアプローチも依然として有効だ
このやり方はそうした制約を回避できる
APIしか扱えないモデルはそうではない
経済的な普及という観点では前者のほうが価値が高い
結局は利便性が優先される
自分の日常的なコーディングでは上位3つの コーディングエージェント で十分だ
SWE‑bench Verified 基準では GPT‑5.2 Codexは72.8点、GPT‑5.4は約2点上昇
大きな飛躍ではないが改善はある
SWE‑bench ではClaude 4.6 Opusが75.6点で依然として上回っている
ただしCodex CLIの エージェント機能 は大きく改善され、Claude Codeの水準に近づいている
OpenAIがモデルを統合したかと思えば、また 細分化されたバージョン を出しているのは混乱する
GPT‑5.1、5.2 Thinking、5.3 Codex、5.3 Instant、5.4 Thinking、5.4 Proなど多すぎる
それでも1Mコンテキストウィンドウ対応は歓迎だ
必要に応じて選べるし、一般ユーザーは依然として Autoモード を使えばよい