14 ポイント 投稿者 GN⁺ 2025-08-08 | まだコメントはありません。 | WhatsAppで共有
  • GPT-5 は、コーディング、数学、ライティング、健康、視覚認識など全分野で既存モデルを上回る性能を提供し、高速応答と深い推論を状況に応じて組み合わせる 統合システム
  • 「GPT-5 Thinking」 は複雑な問題により長い推論を適用して精度を高め、Pro プランのユーザーはこれを拡張した GPT-5 Pro により最高水準の性能を活用可能
  • 実運用で ハルシネーション(誤った事実の生成) の比率を大幅に減らし、マルチモーダル理解・指示実行・複雑なツール連携作業の能力が向上
  • フロントエンド UI 生成・大規模デバッグ など開発者支援が強化され、健康分野では HealthBench 最高スコアを記録し、積極的な健康パートナーの役割を果たす
  • 安全性の面では 「safe completion」 訓練を導入して不要な拒否を減らし、生物・化学分野で高水準の多層防御体制を備える

GPT-5 概要

統合システム

  • 1つのシステム内に スマート・高効率モデル深い推論モデル(GPT-5 Thinking)、そして状況・複雑さ・ツール必要性・ユーザー意図に応じてそれらを選択する リアルタイムルーター を含む
  • 利用量上限を超えた場合は、各モデルの「mini」版が残りの問い合わせを処理
  • 今後はこれらの機能が単一モデルに統合される予定

性能と実用性の向上

  • ベンチマーク全般で GPT-4o を大きく上回る性能
  • ハルシネーション低減指示実行の向上迎合的応答(sycophancy)の最小化
  • 3つの中核領域を改善
    • コーディング: 複雑なフロントエンド生成、大規模リポジトリのデバッグ、美的感覚を反映した UI/UX 生成能力を強化
    • ライティング: 構造的な曖昧さを処理しつつ、文学的な深みとリズムを備えた表現が可能で、日常的な文書作成・編集支援を強化
    • 健康: HealthBench の最高記録、状況・知識水準・地域に合わせた安全で精密な回答を提供

評価結果

  • 数学 94.6%(AIME 2025)、コーディング SWE-bench Verified 74.9%、マルチモーダル MMMU 84.2%、健康 HealthBench Hard 46.2% で SOTA を達成
  • GPQA では GPT-5 Pro が 88.4% で最高記録
  • マルチモーダル・ツール連携・多段階タスク処理能力が大幅に向上

効率的な推論

  • 同等性能比でトークン使用量を 50~80% 削減
  • 複雑かつ高難度の課題で GPT-5 Thinking は o3 と比べてエラー率とハルシネーション率を顕著に低減

信頼性と事実性の強化

  • オープンエンドの事実性テストでハルシネーション率を 6 倍低減
  • 実行不可能な作業や情報不足の状況では限界を明確に説明
  • sycophancy 比率を 14.5% → 6% 未満に低減

安全性の改善

  • 「safe completion」 訓練により、危険性のあるリクエストにも安全で有益な回答を提供
  • 生物・化学分野の高リスクシナリオに備えた多層防御体制を適用

GPT-5 Pro

  • 最も難度の高い課題向けの拡張推論モデル
  • 専門家評価で GPT-5 Thinking より 67.8% 好まれ、主要エラーは 22% 減少
  • 健康・科学・数学・コーディングで最高性能

利用方法とアクセス

  • GPT-5 は ChatGPT の基本モデルとして適用され、従来モデル(GPT-4o、o3 など)を置き換える
  • 「think hard about this」と入力すると推論モードを強制可能
  • Plus・Pro・Team・Free に順次提供、Enterprise・Edu は 1 週間後に適用
  • 無料ユーザーは上限超過時に GPT-5 mini へ切り替え

GPT-5 開発者向け主要内容

性能と特徴

  • コーディング性能:

    • SWE-bench Verified 74.9%(o3: 69.1%)、トークン使用量 22%↓、ツール呼び出し 45%↓
    • Aider polyglot 88% でコード修正のエラー率が 1/3 に減少
    • フロントエンドコード生成では o3 比で 70% 好まれる
  • エージェント作業:

    • τ 2-bench telecom 96.7%、複数ツール呼び出し・並列呼び出しの安定性が向上
    • 進行状況・計画をユーザーに可視化して知らせるプリアンブルメッセージを出力可能
  • 長文コンテキスト:

    • OpenAI-MRCR(2 needle 128k)95.2%、BrowseComp Long Context(256k)88.8%
    • 最大 40 万トークンのコンテキストを処理

新しい API 機能

  • reasoning_effort: minimal~high の範囲で推論時間を調整
  • verbosity: low~high で回答の長さのデフォルト値を設定
  • カスタムツール: JSON の代わりに plaintext で呼び出し可能、正規表現/文法制約をサポート
  • 並列ツール呼び出し・Web 検索・ファイル検索・画像生成などの基本ツールを内蔵
  • プロンプトキャッシュ・Batch API などコスト削減機能をサポート

安定性と信頼性

  • LongFact・FactScore ベンチマークでハルシネーション率を o3 比で ~80% 低減
  • 自己限界の認識・予期しない状況への対処能力を強化
  • 高リスク・高精度要求タスク(コード・データ・意思決定)に適する

Availability & pricing

提供サイズとエンドポイント

  • サイズ構成: gpt-5gpt-5-minigpt-5-nano を提供
  • 対応インターフェース: Responses APIChat Completions APICodex CLI のデフォルト として利用可能
  • モデル特性: API の GPT‑5 系列は reasoning モデル であり、ChatGPT の non‑reasoning モデル は別 ID で提供される

価格表と課金単位

  • gpt-5: 入力 $1.25/100万トークン出力 $10/100万トークン
  • gpt-5-mini: 入力 $0.25/100万出力 $2/100万
  • gpt-5-nano: 入力 $0.05/100万出力 $0.40/100万
  • gpt-5-chat-latest(非推論): 入力 $1.25/100万出力 $10/100万gpt-5 と同一

対応機能の要約

  • 推論制御: reasoning_effortminimallowmediumhigh を指定して 速度↔精度 のトレードオフを調整
  • 応答長: verbosity短め/標準/長め の基本傾向を設定
  • ツーリング: custom toolsplaintext 引数 の呼び出しをサポートし、regex/CFG 制約 を適用可能
  • 実行機能: 並列ツール呼び出し内蔵ツール(web search, file search, image generation など)、ストリーミングStructured Outputs をサポート
  • コスト最適化: プロンプトキャッシュBatch API でトークン・レイテンシコストを削減
  • 展開チャネル: Microsoft 365 CopilotCopilotGitHub CopilotAzure AI Foundry 全般に GPT‑5 が適用される

簡単なコスト例

  • gpt-5入力 50k + 出力 5k トークン を処理した場合、総コストは約 $0.1125
    • 計算式: 入力 0.05M × $1.25 = $0.0625、出力 0.005M × $10 = $0.05、合計 $0.1125
  • 同じ作業を gpt-5-mini で処理した場合、総コストは約 $0.0175
    • 入力 0.05M × $0.25 = $0.0125、出力 0.005M × $2 = $0.01、合計は $0.0225 が正しいが、出力単価を考慮すると 入力比率が高いワークロード で差がより大きくなる
  • 大量の生成出力 が多いパイプラインでは、出力単価が低いモデル を選ぶ動機が大きい

選択ガイドメモ

  • 精度が最優先複雑なツール連鎖 が必要なバックエンドエージェントなら gpt-5 を検討
  • 日常的なコード編集・軽量エージェント・大量バッチ処理には gpt-5-miniコスト対品質 のバランスで有利
  • 超低遅延・超低コスト の前処理・ルールチェック・簡単な要約には gpt-5-nano が適する

参考

  • ChatGPT の non‑reasoning 基本モデル をそのまま使いたい場合は、API で gpt-5-chat-latest を選択
  • 応答長は 明示的な指示文が優先 されるため、verbosity に関係なく「5段落のエッセイ」のように具体的な長さを指示すれば その指示に従う

まだコメントはありません。

まだコメントはありません。