GPT-5 公開
(openai.com)- GPT-5 は、コーディング、数学、ライティング、健康、視覚認識など全分野で既存モデルを上回る性能を提供し、高速応答と深い推論を状況に応じて組み合わせる 統合システム
- 「GPT-5 Thinking」 は複雑な問題により長い推論を適用して精度を高め、Pro プランのユーザーはこれを拡張した GPT-5 Pro により最高水準の性能を活用可能
- 実運用で ハルシネーション(誤った事実の生成) の比率を大幅に減らし、マルチモーダル理解・指示実行・複雑なツール連携作業の能力が向上
- フロントエンド UI 生成・大規模デバッグ など開発者支援が強化され、健康分野では HealthBench 最高スコアを記録し、積極的な健康パートナーの役割を果たす
- 安全性の面では 「safe completion」 訓練を導入して不要な拒否を減らし、生物・化学分野で高水準の多層防御体制を備える
GPT-5 概要
統合システム
- 1つのシステム内に スマート・高効率モデル、深い推論モデル(GPT-5 Thinking)、そして状況・複雑さ・ツール必要性・ユーザー意図に応じてそれらを選択する リアルタイムルーター を含む
- 利用量上限を超えた場合は、各モデルの「mini」版が残りの問い合わせを処理
- 今後はこれらの機能が単一モデルに統合される予定
性能と実用性の向上
- ベンチマーク全般で GPT-4o を大きく上回る性能
- ハルシネーション低減、指示実行の向上、迎合的応答(sycophancy)の最小化
- 3つの中核領域を改善
- コーディング: 複雑なフロントエンド生成、大規模リポジトリのデバッグ、美的感覚を反映した UI/UX 生成能力を強化
- ライティング: 構造的な曖昧さを処理しつつ、文学的な深みとリズムを備えた表現が可能で、日常的な文書作成・編集支援を強化
- 健康: HealthBench の最高記録、状況・知識水準・地域に合わせた安全で精密な回答を提供
評価結果
- 数学 94.6%(AIME 2025)、コーディング SWE-bench Verified 74.9%、マルチモーダル MMMU 84.2%、健康 HealthBench Hard 46.2% で SOTA を達成
- GPQA では GPT-5 Pro が 88.4% で最高記録
- マルチモーダル・ツール連携・多段階タスク処理能力が大幅に向上
効率的な推論
- 同等性能比でトークン使用量を 50~80% 削減
- 複雑かつ高難度の課題で GPT-5 Thinking は o3 と比べてエラー率とハルシネーション率を顕著に低減
信頼性と事実性の強化
- オープンエンドの事実性テストでハルシネーション率を 6 倍低減
- 実行不可能な作業や情報不足の状況では限界を明確に説明
- sycophancy 比率を 14.5% → 6% 未満に低減
安全性の改善
- 「safe completion」 訓練により、危険性のあるリクエストにも安全で有益な回答を提供
- 生物・化学分野の高リスクシナリオに備えた多層防御体制を適用
GPT-5 Pro
- 最も難度の高い課題向けの拡張推論モデル
- 専門家評価で GPT-5 Thinking より 67.8% 好まれ、主要エラーは 22% 減少
- 健康・科学・数学・コーディングで最高性能
利用方法とアクセス
- GPT-5 は ChatGPT の基本モデルとして適用され、従来モデル(GPT-4o、o3 など)を置き換える
- 「think hard about this」と入力すると推論モードを強制可能
- Plus・Pro・Team・Free に順次提供、Enterprise・Edu は 1 週間後に適用
- 無料ユーザーは上限超過時に GPT-5 mini へ切り替え
GPT-5 開発者向け主要内容
性能と特徴
-
コーディング性能:
- SWE-bench Verified 74.9%(o3: 69.1%)、トークン使用量 22%↓、ツール呼び出し 45%↓
- Aider polyglot 88% でコード修正のエラー率が 1/3 に減少
- フロントエンドコード生成では o3 比で 70% 好まれる
-
エージェント作業:
- τ 2-bench telecom 96.7%、複数ツール呼び出し・並列呼び出しの安定性が向上
- 進行状況・計画をユーザーに可視化して知らせるプリアンブルメッセージを出力可能
-
長文コンテキスト:
- OpenAI-MRCR(2 needle 128k)95.2%、BrowseComp Long Context(256k)88.8%
- 最大 40 万トークンのコンテキストを処理
新しい API 機能
reasoning_effort:minimal~highの範囲で推論時間を調整verbosity:low~highで回答の長さのデフォルト値を設定- カスタムツール: JSON の代わりに plaintext で呼び出し可能、正規表現/文法制約をサポート
- 並列ツール呼び出し・Web 検索・ファイル検索・画像生成などの基本ツールを内蔵
- プロンプトキャッシュ・Batch API などコスト削減機能をサポート
安定性と信頼性
- LongFact・FactScore ベンチマークでハルシネーション率を o3 比で ~80% 低減
- 自己限界の認識・予期しない状況への対処能力を強化
- 高リスク・高精度要求タスク(コード・データ・意思決定)に適する
Availability & pricing
提供サイズとエンドポイント
- サイズ構成:
gpt-5・gpt-5-mini・gpt-5-nanoを提供 - 対応インターフェース: Responses API、Chat Completions API、Codex CLI のデフォルト として利用可能
- モデル特性: API の GPT‑5 系列は reasoning モデル であり、ChatGPT の non‑reasoning モデル は別 ID で提供される
価格表と課金単位
gpt-5: 入力 $1.25/100万トークン、出力 $10/100万トークンgpt-5-mini: 入力 $0.25/100万、出力 $2/100万gpt-5-nano: 入力 $0.05/100万、出力 $0.40/100万gpt-5-chat-latest(非推論): 入力 $1.25/100万、出力 $10/100万 でgpt-5と同一
対応機能の要約
- 推論制御:
reasoning_effortにminimal・low・medium・highを指定して 速度↔精度 のトレードオフを調整 - 応答長:
verbosityで 短め/標準/長め の基本傾向を設定 - ツーリング: custom tools で plaintext 引数 の呼び出しをサポートし、regex/CFG 制約 を適用可能
- 実行機能: 並列ツール呼び出し、内蔵ツール(web search, file search, image generation など)、ストリーミング、Structured Outputs をサポート
- コスト最適化: プロンプトキャッシュ、Batch API でトークン・レイテンシコストを削減
- 展開チャネル: Microsoft 365 Copilot、Copilot、GitHub Copilot、Azure AI Foundry 全般に GPT‑5 が適用される
簡単なコスト例
gpt-5で 入力 50k + 出力 5k トークン を処理した場合、総コストは約 $0.1125- 計算式: 入力 0.05M × $1.25 = $0.0625、出力 0.005M × $10 = $0.05、合計 $0.1125
- 同じ作業を
gpt-5-miniで処理した場合、総コストは約 $0.0175- 入力 0.05M × $0.25 = $0.0125、出力 0.005M × $2 = $0.01、合計は $0.0225 が正しいが、出力単価を考慮すると 入力比率が高いワークロード で差がより大きくなる
- 大量の生成出力 が多いパイプラインでは、出力単価が低いモデル を選ぶ動機が大きい
選択ガイドメモ
- 精度が最優先 で 複雑なツール連鎖 が必要なバックエンドエージェントなら
gpt-5を検討 - 日常的なコード編集・軽量エージェント・大量バッチ処理には
gpt-5-miniが コスト対品質 のバランスで有利 - 超低遅延・超低コスト の前処理・ルールチェック・簡単な要約には
gpt-5-nanoが適する
参考
- ChatGPT の non‑reasoning 基本モデル をそのまま使いたい場合は、API で
gpt-5-chat-latestを選択 - 応答長は 明示的な指示文が優先 されるため、
verbosityに関係なく「5段落のエッセイ」のように具体的な長さを指示すれば その指示に従う
まだコメントはありません。