GPT‑5.4公開

(openai.com)

11 ポイント投稿者 GN⁺ 2026-03-06 | 2件のコメント | WhatsAppで共有

ChatGPT、API、Codex全体に適用される最新のフロンティアモデルで、推論・コーディング・エージェントワークフロー性能を統合
ネイティブのcomputer-use機能を内蔵し、エージェントがWebサイトとソフトウェアを直接操作しながら複雑なワークフローを実行可能
最大1Mトークンのコンテキストウィンドウをサポートし、ツール検索と効率的なトークン使用で速度とコストを削減
ChatGPTのThinkingモードでは、応答の途中で思考の進め方を調整でき、ディープWebリサーチとコンテキスト保持力が向上
GPT-5.3-Codexのコーディング性能を取り込み、スプレッドシート・プレゼンテーション・文書作業の精度と効率を大幅に改善

GPT‑5.4概要

GPT‑5.4はChatGPT（Thinkingモード）、API、Codexに同時展開された最も強力で効率的なモデル
- GPT‑5.4 Proバージョンは複雑な作業で最大性能を提供
GPT‑5.3‑Codexのコーディング能力を統合し、スプレッドシート・プレゼンテーション・文書作業など専門業務環境での精度と効率性を強化
ツール・ソフトウェア環境間の連携性が改善され、実際の業務遂行時の往復のやり取りが減少

ChatGPTのThinkingモード改善

GPT-5.4 Thinkingは作業開始時に思考プロセスの**事前計画（preamble）**を提示し、ユーザーが応答生成の途中で方向を調整可能
追加ターンなしで最終出力がユーザー意図により正確に合致するよう設計
ディープWebリサーチ性能が向上し、特に非常に具体的なクエリで効果的
長い思考を要する質問で以前のコンテキスト保持能力が改善され、より高品質な回答をより速く提供
chatgpt.comとAndroidアプリで即時利用可能、iOSアプリは後日対応予定

コンピュータ操作およびビジョン機能

GPT-5.4は汎用モデルとして初めてネイティブcomputer-use機能を搭載したモデル
Playwrightのようなライブラリを通じたコードベースのコンピュータ操作と、スクリーンショットベースのマウス・キーボード命令の発行の両方をサポート
開発者メッセージを通じて挙動を調整でき、**カスタム確認ポリシー（confirmation policy）**で許容リスク水準を個別設定可能
OSWorld-Verifiedで75.0%を達成し、人間性能72.4%を上回り、GPT-5.2の47.3%から大幅改善
WebArena-VerifiedでDOM + スクリーンショットベースの相互作用により67.3%を達成（GPT-5.2: 65.4%）
Online-Mind2Webでスクリーンショットベースの観察のみで92.8%を達成（ChatGPT Atlas Agent Mode: 70.9%）

視覚認識および文書パースの改善

改善された汎用視覚認識能力がコンピュータ操作機能の基盤
MMMU-Proでツール未使用時81.2%（GPT-5.2: 79.5%）、ツール使用時82.1%（GPT-5.2: 80.4%）
OmniDocBenchで推論なしの平均誤り（正規化編集距離）0.109を達成（GPT-5.2: 0.140）
新しいoriginal画像入力ディテールレベルを導入: 最大10.24Mピクセルまたは最大辺6000pxまで完全忠実度の認識をサポート
- highレベルは最大2.56Mピクセルまたは最大辺2048pxへ拡張
- 初期APIユーザーテストで位置把握能力、画像理解、クリック精度における強い改善を確認

コーディング性能

GPT-5.3-Codexのコーディング面での強みと、専門業務・コンピュータ操作機能を結合
SWE-Bench Proで57.7%を達成（GPT-5.3-Codex: 56.8%、GPT-5.2: 55.6%）
すべての推論レベルでGPT-5.3-Codexより低レイテンシを提供
Codexで**/fastモード**を有効にすると最大1.5倍高速なトークン速度を提供し、同一モデル・同一知能水準を維持
- APIではPriority Processingを通じて同じ高速性能にアクセス可能
複雑なフロントエンド作業で従来モデルより明らかに美しく機能的な成果物を生成
実験的なCodexスキル**"Playwright (Interactive)"**を公開: WebおよびElectronアプリの視覚的デバッグをサポートし、開発中のアプリをリアルタイムでテスト可能

Tool Search機能

従来はすべてのツール定義がプロンプトに事前に含まれ、数千〜数万トークンを消費していたが、Tool Searchにより軽量なツール一覧のみを提供し、必要時に定義を動的取得
ツール集約型ワークフローでトークン使用量を劇的に削減し、キャッシュを保持して速度とコストの両方を改善
数万トークン規模のMCPサーバーツール定義で特に効率改善が大きい
ScaleのMCP Atlasベンチマーク250タスク基準で、36個のMCPサーバー全体をTool Searchへ切り替えると総トークン使用量が47%減少し、精度は同一を維持

ツール呼び出しおよびエージェント性能

GPT-5.4は推論中のツール使用のタイミングと方法における精度と効率性を改善
Toolathlonで54.6%を達成（GPT-5.2: 45.7%）、より少ないターンでより高い精度
- メールの読み取り、課題添付ファイルの抽出、アップロード、採点、結果のスプレッドシート記録など多段階の実際のツール活用作業を評価
推論なしの低レイテンシシナリオでもτ2-bench Telecomで64.3%を達成（GPT-5.2: 57.2%、GPT-4.1: 43.6%）
BrowseCompで82.7%、GPT-5.4 Proは**89.3%**で新たな最高性能を達成（GPT-5.2: 65.8%）
- 「干し草の山から針を探す」型の難しい情報探索で、複数ラウンドにわたり継続的に検索する能力が向上

専門業務および知的労働の性能

GDPvalで米国GDP上位9産業・44職種の実際の業務成果物（営業プレゼンテーション、会計スプレッドシート、救急診療スケジュール、製造ダイアグラム、短編動画など）を評価
- GPT-5.4: **83.0%**が専門家レベルと一致または上回る（GPT-5.2: 70.9%）
内部の投資銀行スプレッドシートモデリングベンチマークで平均87.3%（GPT-5.2: 68.4%）
プレゼンテーション評価では人間評価者がGPT-5.4の成果物を**68.0%**選好（美的完成度、視覚的多様性、画像生成活用度が優秀）
ハルシネーションと誤りの減少: ユーザーが事実誤りを報告したプロンプト基準で、個別主張の虚偽可能性が33%減少し、回答全体に誤りが含まれる可能性が18%減少（GPT-5.2比）

1Mコンテキストウィンドウおよび長文コンテキスト性能

最大1Mトークンコンテキストをサポートし、エージェントが長い範囲の作業を計画・実行・検証可能
Codexで実験的に1Mコンテキストウィンドウをサポートし、model_context_windowとmodel_auto_compact_token_limit設定で構成
- 標準の272Kコンテキストウィンドウを超えるリクエストは2倍料金で課金
Graphwalks BFS 0K–128K: 93.0%、256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 4K–8Kで97.3%、128K–256Kで79.3%、512K–1Mで36.6%

抽象推論および学術ベンチマーク

ARC-AGI-1 (Verified): 93.7%（GPT-5.2: 86.2%）、ARC-AGI-2 (Verified): 73.3%（GPT-5.2: 52.9%）
GPT-5.4 ProはARC-AGI-2で**83.3%**を達成
Frontier Science Research: 33.0%（GPT-5.2: 25.2%）、FrontierMath Tier 1–3: 47.6%（GPT-5.2: 40.7%）
FrontierMath Tier 4: 27.1%（GPT-5.2: 18.8%）、GPT-5.4 Proは38.0%
GPQA Diamond: 92.8%（GPT-5.2: 92.4%）
Humanity's Last Exam: ツール未使用39.8%、ツール使用52.1%（GPT-5.2: それぞれ34.5%、45.5%）
- GPT-5.4 Proはツール使用時**58.7%**を達成

安全性およびセキュリティ

GPT-5.3-Codexで導入した保護措置を継続的に改善し、Preparedness FrameworkではHigh cyber capabilityに分類
拡張されたサイバー安全スタック: 監視システム、信頼ベースのアクセス制御、Zero Data Retention（ZDR）領域での非同期ブロックを含む
サイバーセキュリティ能力のデュアルユース特性を考慮した予防的展開アプローチを採用し、分類器精度の改善を進める中で一部**誤検知（false positive）**の可能性あり
不要な拒否と過度な手がかり応答を減らしつつ、不正利用防止の保護を維持することを目標
Chain-of-Thought（CoT）モニタリング研究を継続し、新しいオープンソース評価ツールCoT controllabilityを公開
- GPT-5.4 ThinkingはCoT制御能力が低く、モデルが推論を隠しにくい点で安全性にプラス

価格および提供情報

APIモデル名: gpt-5.4、Proバージョン: gpt-5.4-pro
API価格（Mトークン基準）:
- gpt-5.4: 入力$2.50、キャッシュ入力$0.25、出力$15
- gpt-5.4-pro: 入力$30、出力$180
- gpt-5.2: 入力$1.75、キャッシュ入力$0.175、出力$14
GPT-5.2比でトークン単価は高いが、トークン効率の向上により作業当たりの総トークン使用量は減少
BatchおよびFlex価格は標準の半額、Priority Processingは標準の2倍
ChatGPTでGPT-5.4 ThinkingはPlus、Team、Proユーザーに即時提供され、GPT-5.2 Thinkingを置き換え
- GPT-5.2 Thinkingは有料ユーザー向けLegacy Modelsセクションで3か月維持された後、2026年6月5日に終了
- Enterprise、Eduプランは管理者設定で早期アクセスを有効化可能
- GPT-5.4 ProはProおよびEnterpriseプランで提供
GPT-5.4はGPT-5.3-Codexのフロンティア級コーディング能力を統合した初のメインライン推論モデルであり、InstantモデルとThinkingモデルは今後それぞれ異なる速度で進化する予定

2件のコメント

helio 2026-03-06

> Codexで/fastモードを有効にすると、最大1.5倍高速なトークン速度を実現しつつ、同一モデル・同一知能レベルを維持。APIではPriority Processing。
> Priority Processingは標準の2倍の価格
> 標準の272Kコンテキストウィンドウを超えるリクエストは2倍料金で課金

GN⁺ 2026-03-06

Hacker Newsのコメント

ブログ記事の下部にある 「Ask ChatGPT」ボックス が面白かった
記事の内容を要約してほしいと入力すると新しいウィンドウが開くが、「外部URLにはアクセスできない」という返答しか返ってこない
この機能が実際には動作していないことをOpenAIが把握しているのか気になる
- ログインしていないユーザーにだけ動かないようだ
  ログイン状態では正常に動作し、チームに バグレポート を送った
- 自分が試したときは正常に要約された
  共有されたサンプルリンクを参照
  自分もログイン状態だった
- 自分もログイン状態では要約がうまく動作した
  おそらくログイン有無によって外部URLへのアクセス権限が変わるのだろう
- 久しぶりに Claude を使ってみたが、UXがかなり改善されていた
  Anthropicのほうがこうした細かなUXにより気を配っているように見える
- ひょっとするとそのメッセージは 著作権の問題 のせいだったのか気になる
OpenAIのモデルラインアップは複雑になりすぎたと感じる
GPT‑5.1、5.2、5.4にCodex 5.3、Instant 5.3まで混在している
一方でAnthropicは3つのモデルだけを明確に区別しており、Googleはいまだに Previewモデル ばかりだ
開発者として安定したバージョンを使いにくいという不満がある
- Googleの古いツール vs 新しいベータツールというミームを思い出す
  いつもそのどちらか一方しか選べない状況が繰り返される
- バージョン番号が分かりにくいというのは少し 揚げ足取り に感じる
  エンジニアなら 5.4 > 5.2 > 5.1 くらいは簡単に理解できる
- Googleが2.5モデルをまもなく 廃止(deprecate) すると通知してきた
  3.xはまだPreviewのままで混乱する
- Anthropicもバージョン体系はひどい
  Opus、Sonnet、Haikuの間でバージョンがばらばらだし、価格体系 も複雑だ
  結局どの会社も似たような問題を抱えている
- 毎月より良いモデルが出てくるのに、あえて同じモデルに固執する理由はない
  APIさえ差し替えれば簡単に 切り替え られる時代だ
GPT‑5.4の核心は 1Mトークンのコンテキストウィンドウ だ
公式価格表によれば200k超でも追加料金はない
Opus 4.6よりはるかに安いが、実際に1Mコンテキストが実利をもたらすかは疑問だ
更新されたドキュメントによればGPT‑5.3‑Codexを置き換えるとのこと
- モデルドキュメントによると
  272Kトークンを超えると入力は2倍、出力は1.5倍の料金がかかる
- 長いコンテキスト vs 圧縮(compaction) は常に悩みどころだ
  トークンが増えるほどコストとレイテンシが増える
  OpenAIの内部テストでは、短いコンテキストのほうが大半のケースでより効率的だった
  （社員コメント）
- Claudeは同じ作業に必要なトークン数が少ないため
  作業あたりのコスト で比較すべきだ
  実際にはGPT‑5.xとOpusのコストは同程度だ
  ベンチマークより実務での成果のほうが重要だ
- 多くの人は公式価格表しか見ないが
  実際には開発者ドキュメントのほうが正確だ
  基本料金が適用されるのは272k以下までだ
- コンテキスト腐敗(context rot) の問題は依然として存在するが
  Anthropicは長時間の作業に対するRLでこれを緩和しようという計画を持っている
GPT‑5.4を何度か使ってみたが、文章の明瞭さと分析力 が印象的だった
5.3‑Codexよりずっと自然で人間らしい文体を使う
自分のAGENTS.mdがシンプルな言語を要求しているせいかもしれない
- ただし自分のコードベースでは重要な データ損失バグ を見逃した
- 新しいモデルが出るたびに「前のモデルは原始的だった」という投稿が上がるが
  そのパターンがまた繰り返されている気がする
- 自分もOpusからCodexに移ったが、推論は遅いが精度 は上がった
  Claudeは比較的ゆるい感じがする
- 同じAGENTS.mdファイルを使えば同じ結果になるのか気になる
- 最新の研究によると、AGENTS.mdを含めるとむしろ 性能が低下 するという
OpenAIは8か月のあいだ バージョン番号の混乱 を避けていたのに、結局また複雑になった
GPT‑5.3 Instant、GPT‑5.4 Thinking など名前が入り混じっている
- GPT‑5.3 Instantとgpt‑5.3‑chatの違いが分かりにくい
- 実は5.3 Codexもあった
- Instantモデルは要約や検索には向いているが、複雑な会話 では文脈を失いやすい
  用途に合わせて使うべきだ
ブログの RPGゲームのデモ が印象的だった
「Battle Brothers」に近いレベルで、自律的エンジニアリングの良い例だった
- AIが一度に ローラーコースター・タイクーンのクローン を作ったのは驚きだ
  この速度ならローコードツール市場が脅かされるかもしれない
- ただ実際には単純なデモのレベルに見えた
- おそらく Playwright統合 のおかげだろう
  Codexがウェブアプリを視覚的にデバッグしてテストできるようになった
軍事およびセキュリティ分野でもこのモデルは活用されそうだ
- 暴力関連の安全スコア が91%から83%に下がったという
- 軍事ベンチマーク（ArtificialSuperSoldierなど）の結果も公開されたのか気になる
- Claudeモデルのように Anthropic方式 でも使えるのだろうか
- 広告業界もこの技術を欲しがりそうだ
- 軍ではまだ4.1バージョンを使っているので、アップグレードには時間がかかりそうだ
GPT‑5.4が ブラウザのスクリーンショットを解釈 してGmail UIをクリックし、メールを送る機能を実演していた
ただこうしたやり方より、Gmail APIを使うほうが効率的だと思う
- ほとんどのウェブサイトは APIがないか、文書化が不十分 だ
  スクリーンショットはドキュメント、API、探索手段を一度に提供してくれる
- 人間向けに作られた道具を使うために ヒューマノイドロボット を作るような感じだ
  成功すれば汎用性は高いが、APIベースのアプローチも依然として有効だ
- 多くのサービスはAPIを公開する意思がない
  このやり方はそうした制約を回避できる
- コンピュータ操作能力 を身につけたモデルはどこでも使えるが
  APIしか扱えないモデルはそうではない
  経済的な普及という観点では前者のほうが価値が高い
- WikipediaがAPIより ウェブスクレイピング されることのほうが多い理由と似ている
  結局は利便性が優先される
自分の日常的なコーディングでは上位3つの コーディングエージェント で十分だ
SWE‑bench Verified 基準では GPT‑5.2 Codexは72.8点、GPT‑5.4は約2点上昇
大きな飛躍ではないが改善はある
SWE‑bench ではClaude 4.6 Opusが75.6点で依然として上回っている
ただしCodex CLIの エージェント機能 は大きく改善され、Claude Codeの水準に近づいている
OpenAIがモデルを統合したかと思えば、また 細分化されたバージョン を出しているのは混乱する
GPT‑5.1、5.2 Thinking、5.3 Codex、5.3 Instant、5.4 Thinking、5.4 Proなど多すぎる
それでも1Mコンテキストウィンドウ対応は歓迎だ
- 自分はこうした選択肢があるのは良いと思う
  必要に応じて選べるし、一般ユーザーは依然として Autoモード を使えばよい
- Autoオプションがまだ存在するので大きな問題ではない
- おそらくバックエンドでGPT‑5が複数モデルへ 自動ルーティング する構成になっているのだろう