GPT-5 公開

(openai.com)

14 ポイント投稿者 GN⁺ 2025-08-08 | まだコメントはありません。 | WhatsAppで共有

GPT-5 は、コーディング、数学、ライティング、健康、視覚認識など全分野で既存モデルを上回る性能を提供し、高速応答と深い推論を状況に応じて組み合わせる 統合システム
「GPT-5 Thinking」 は複雑な問題により長い推論を適用して精度を高め、Pro プランのユーザーはこれを拡張した GPT-5 Pro により最高水準の性能を活用可能
実運用で ハルシネーション（誤った事実の生成） の比率を大幅に減らし、マルチモーダル理解・指示実行・複雑なツール連携作業の能力が向上
フロントエンド UI 生成・大規模デバッグ など開発者支援が強化され、健康分野では HealthBench 最高スコアを記録し、積極的な健康パートナーの役割を果たす
安全性の面では 「safe completion」 訓練を導入して不要な拒否を減らし、生物・化学分野で高水準の多層防御体制を備える

GPT-5 概要

統合システム

1つのシステム内に スマート・高効率モデル、深い推論モデル（GPT-5 Thinking）、そして状況・複雑さ・ツール必要性・ユーザー意図に応じてそれらを選択する リアルタイムルーター を含む
利用量上限を超えた場合は、各モデルの「mini」版が残りの問い合わせを処理
今後はこれらの機能が単一モデルに統合される予定

性能と実用性の向上

ベンチマーク全般で GPT-4o を大きく上回る性能
ハルシネーション低減、指示実行の向上、迎合的応答（sycophancy）の最小化
3つの中核領域を改善
- コーディング: 複雑なフロントエンド生成、大規模リポジトリのデバッグ、美的感覚を反映した UI/UX 生成能力を強化
- ライティング: 構造的な曖昧さを処理しつつ、文学的な深みとリズムを備えた表現が可能で、日常的な文書作成・編集支援を強化
- 健康: HealthBench の最高記録、状況・知識水準・地域に合わせた安全で精密な回答を提供

評価結果

数学 94.6%（AIME 2025）、コーディング SWE-bench Verified 74.9%、マルチモーダル MMMU 84.2%、健康 HealthBench Hard 46.2% で SOTA を達成
GPQA では GPT-5 Pro が 88.4% で最高記録
マルチモーダル・ツール連携・多段階タスク処理能力が大幅に向上

効率的な推論

同等性能比でトークン使用量を 50~80% 削減
複雑かつ高難度の課題で GPT-5 Thinking は o3 と比べてエラー率とハルシネーション率を顕著に低減

信頼性と事実性の強化

オープンエンドの事実性テストでハルシネーション率を 6 倍低減
実行不可能な作業や情報不足の状況では限界を明確に説明
sycophancy 比率を 14.5% → 6% 未満に低減

安全性の改善

「safe completion」 訓練により、危険性のあるリクエストにも安全で有益な回答を提供
生物・化学分野の高リスクシナリオに備えた多層防御体制を適用

GPT-5 Pro

最も難度の高い課題向けの拡張推論モデル
専門家評価で GPT-5 Thinking より 67.8% 好まれ、主要エラーは 22% 減少
健康・科学・数学・コーディングで最高性能

利用方法とアクセス

GPT-5 は ChatGPT の基本モデルとして適用され、従来モデル（GPT-4o、o3 など）を置き換える
「think hard about this」と入力すると推論モードを強制可能
Plus・Pro・Team・Free に順次提供、Enterprise・Edu は 1 週間後に適用
無料ユーザーは上限超過時に GPT-5 mini へ切り替え

GPT-5 開発者向け主要内容

性能と特徴

コーディング性能:
- SWE-bench Verified 74.9%（o3: 69.1%）、トークン使用量 22%↓、ツール呼び出し 45%↓
- Aider polyglot 88% でコード修正のエラー率が 1/3 に減少
- フロントエンドコード生成では o3 比で 70% 好まれる
エージェント作業:
- τ 2-bench telecom 96.7%、複数ツール呼び出し・並列呼び出しの安定性が向上
- 進行状況・計画をユーザーに可視化して知らせるプリアンブルメッセージを出力可能
長文コンテキスト:
- OpenAI-MRCR（2 needle 128k）95.2%、BrowseComp Long Context（256k）88.8%
- 最大 40 万トークンのコンテキストを処理

新しい API 機能

reasoning_effort: minimal~high の範囲で推論時間を調整
verbosity: low~high で回答の長さのデフォルト値を設定
カスタムツール: JSON の代わりに plaintext で呼び出し可能、正規表現/文法制約をサポート
並列ツール呼び出し・Web 検索・ファイル検索・画像生成などの基本ツールを内蔵
プロンプトキャッシュ・Batch API などコスト削減機能をサポート

安定性と信頼性

LongFact・FactScore ベンチマークでハルシネーション率を o3 比で ~80% 低減
自己限界の認識・予期しない状況への対処能力を強化
高リスク・高精度要求タスク（コード・データ・意思決定）に適する

Availability & pricing

提供サイズとエンドポイント

サイズ構成: gpt-5・gpt-5-mini・gpt-5-nano を提供
対応インターフェース: Responses API、Chat Completions API、Codex CLI のデフォルト として利用可能
モデル特性: API の GPT‑5 系列は reasoning モデル であり、ChatGPT の non‑reasoning モデル は別 ID で提供される

価格表と課金単位

gpt-5: 入力 $1.25/100万トークン、出力 $10/100万トークン
gpt-5-mini: 入力 $0.25/100万、出力 $2/100万
gpt-5-nano: 入力 $0.05/100万、出力 $0.40/100万
gpt-5-chat-latest（非推論）: 入力 $1.25/100万、出力 $10/100万 で gpt-5 と同一

対応機能の要約

推論制御: reasoning_effort に minimal・low・medium・high を指定して 速度↔精度 のトレードオフを調整
応答長: verbosity で 短め/標準/長め の基本傾向を設定
ツーリング: custom tools で plaintext 引数 の呼び出しをサポートし、regex/CFG 制約 を適用可能
実行機能: 並列ツール呼び出し、内蔵ツール（web search, file search, image generation など）、ストリーミング、Structured Outputs をサポート
コスト最適化: プロンプトキャッシュ、Batch API でトークン・レイテンシコストを削減

展開チャネル: Microsoft 365 Copilot、Copilot、GitHub Copilot、Azure AI Foundry 全般に GPT‑5 が適用される

簡単なコスト例

gpt-5 で 入力 50k + 出力 5k トークン を処理した場合、総コストは約 $0.1125
- 計算式: 入力 0.05M × $1.25 = $0.0625、出力 0.005M × $10 = $0.05、合計 $0.1125
同じ作業を gpt-5-mini で処理した場合、総コストは約 $0.0175
- 入力 0.05M × $0.25 = $0.0125、出力 0.005M × $2 = $0.01、合計は $0.0225 が正しいが、出力単価を考慮すると 入力比率が高いワークロード で差がより大きくなる
大量の生成出力 が多いパイプラインでは、出力単価が低いモデル を選ぶ動機が大きい

選択ガイドメモ

精度が最優先 で 複雑なツール連鎖 が必要なバックエンドエージェントなら gpt-5 を検討
日常的なコード編集・軽量エージェント・大量バッチ処理には gpt-5-mini が コスト対品質 のバランスで有利
超低遅延・超低コスト の前処理・ルールチェック・簡単な要約には gpt-5-nano が適する

参考

ChatGPT の non‑reasoning 基本モデル をそのまま使いたい場合は、API で gpt-5-chat-latest を選択
応答長は 明示的な指示文が優先 されるため、verbosity に関係なく「5段落のエッセイ」のように具体的な長さを指示すれば その指示に従う

まだコメントはありません。

まだコメントはありません。