GPT-5: 主要な特徴、価格、システムカード
(simonwillison.net)- GPT-5は、リアルタイムルーターが対話コンテキストに合わせてモデルを切り替える統合システムとして動作し、APIではRegular・Mini・Nanoの3種類にMinimal・Low・Medium・Highの4段階推論レベルを提供する。
- 入力272,000トークンと出力128,000トークンの上限をサポートしており、入力はテキスト・画像、出力はテキストのみをサポート。
- 価格は攻めた価格設定で、GPT-4oと比べて入力単価が半額。最近数分以内に再利用される入力にはトークンキャッシュ90%割引が適用される。
- システムカードでは幻覚低減、指示実行の向上、おべっか最小化とともに、Safe‑Completions訓練により二値的な拒否ではなく安全な範囲の応答を志向している。
- セキュリティ面ではプロンプトインジェクション対策が改善された一方、k=10試行基準で56.8%の成功率という未解決領域があり、APIではreasoning要約とreasoning_effort=minimalオプションで推論トークンの流れを制御できる。
GPT-5 : 主要な特徴、価格、システムカード分析
- 著者Simon Willisonは2週間のプレビューアクセス権でGPT‑5を日常的に試験運用し、劇的な進化ではないが全体として非常に有能で、誤りの発生が少なく、一貫したデフォルトモデルとして使いやすいという印象を受けた。
- 本稿は連載の第1回として、コア特性、価格、システムカードから読み取れる内容を整理する。
モデルの主要特性
- ChatGPT環境でGPT‑5は高速な一般モデルと深い推論モデルを統合し、対話タイプ・難易度・ツール必要性・明示的な意図に応じてリアルタイムルーターが適切なモデルを選ぶハイブリッド構成として動作する。
real‑time routerは対話タイプ、複雑さ、ツールの必要性、 「think hard」のような意図シグナルに基づいてモデルを選択し、利用上限が尽きると各モデルのminiバージョンが代替する、という説明がシステムカードに含まれている。
- APIはRegular・Mini・Nanoの3種類に簡素化され、各モデルはMinimal・Low・Medium・Highの4段階推論レベルをサポートする。
- コンテキスト上限は入力272,000トークン、出力128,000トークンで、見えない推論トークンも出力トークンとして計算される。
- 入出力はテキスト・画像入力、テキスト出力のみで、知識カットオフはGPT‑5: 2024‑09‑30、Mini/Nano: 2024‑05‑30。
- 全体のGPT‑5利用では正確で安定した応答傾向を感じ、別モデルで再試行したくなる場面はほとんどなかった。
OpenAIのモデルファミリーにおける位置付け
- システムカードのマッピング表によれば、既存のラインナップはGPT‑5系へ置き換えられる位置付けを示す。
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
- thinking‑proは現在、**ChatGPTの「GPT‑5 Pro」**として表示され、月額$200ティアでのみ提供され、parallel test‑time computeを使用する。
- 音声入出力と画像生成は依然としてGPT‑4o Audio/Realtime、GPT Image 1/DALL‑Eが担当し、機能の境界線は維持されている。
価格は積極的に競争力
- 価格は攻めた設定である。
- GPT‑5: 入力 $1.25/100万、出力 $10/100万
- GPT‑5 Mini: 入力 $0.25/100万、出力 $2.00/100万
- GPT‑5 Nano: 入力 $0.05/100万、出力 $0.40/100万
- GPT‑4oに対して入力単価は半分で、出力単価は同じ。
- 推論トークンは出力トークンとして請求されるため、同じプロンプトでも推論レベルにより総コストが異なる。
- トークンキャッシュ90%割引があり、会話コンテキスト再送信が頻繁なチャットUIではコスト削減効果が大きい。
- 競合比較表では、Claude Opus 4.1、Claude Sonnet 4、Grok 4、Gemini 2.5 Proが入力$2.5〜$15/100万、出力$10〜$75/100万の水準と示され、GPT‑5系の単価優位が示された。
- 表の自動ソートをGPT‑5に任せた結果、価格比較を一部誤ってソートしてしまったケースがあり、Pythonでテーブルを構成して並び替えると問題が解消された。
システムカードの追加ノート
- 訓練データ構成は公開ウェブ、提携データ、ユーザー/ヒューマントレーナー生成データを含み、個人情報の縮減フィルタを適用したという原則的な説明がある。
- 主要な改善軸として幻覚低減、指示実行向上、おべっか最小化が強調され、ChatGPTの主要3ユースケースとしてwriting・coding・healthを挙げ、該当領域の性能強化を行った。
- Safe‑Completionsは二値的な拒否ではなく出力の安全性を重視する出力中心の安全訓練で、生物学・セキュリティなど利用者の意図を判別しにくいデュアルユースクエリに対して、詳細なリスクを抑えつつ有益性を維持する。
- Sycophancyについては、実運用対話分布を反映した評価と報酬信号でおべっか的同調傾向を下げる事後訓練を実施。
- 事実性の観点ではブラウジングをデフォルトで有効にし、ツールなしで内部知識だけで回答する際の幻覚率低減を目標として訓練。
- 詐欺・虚言の防止のため、不可能なタスクで「不可能」と率直に認めるよう報酬設計を行い、ブラウジングなどのツールを意図的に無効化して偽の応答を抑制するシミュレーション評価も実施。
システムカードにおけるプロンプトインジェクション
- 外部レッドチーム2チームがシステムレベルの脆弱性とコネクタ経路に焦点を当て、プロンプトインジェクション評価を実施したという結果が含まれている。
- 比較チャートでは、**gpt‑5‑thinkingの攻撃成功率がk=10基準で56.8%**となり、Claude 3.7/その他多くのモデルの60〜90%台より低い数値を示したが、なお半数以上が突破されるため、完全解決には程遠い。
- 結論として、モデル改善が進んでも****製品設計上の防御とガードレールは必須前提として扱うべき。
APIのThinkingトレース
- 著者は当初、推論トレースは公開されないと認識していたが、Responses APIで
reasoning: { "summary": "auto" }を使うことで推論要約を受け取れる。 - このオプションなしで深い推論レベルを使うと、可視出力前にかなりの推論トークンが消費されるため遅延を感じる場合があり、
reasoning_effort=minimal設定により高速なストリーミング応答を促進できる。
ペリカンのSVG例
- 著者の常時SVGベンチマークである「自転車に乗るペリカン」生成では、GPT‑5(デフォルトMedium推論)の結果はバイクのディテールと形状精度が高く、可読性の高いベクターを示した。
- GPT‑5 Miniは色・グラデーション表現は豊富だが、ペリカンの首が2本となる構造的エラーが見られた。
- GPT‑5 Nanoは自転車とペリカンの形状が簡略化され、機能的な要約レベルの結果を返す。
実務ポイント要約
- モデル選択: Regularで始め、十分であればMini/Nanoへダウンシフト、深い問題にはthinking系・高い推論レベルを検討する必要がある。
- コスト管理: トークンキャッシュ90%、reasoning_effort=minimal、短いシステムプロンプト・要約したコンテキストで出力トークン・推論トークンを削減する戦略が有効。
- セキュリティ設計: プロンプトインジェクションはなおリスクが残るため、コネクタ権限の縮小、出力検証、安全な出力テンプレートなどシステム的対策の併用が必要。
- 領域適用: writing・coding・healthで幻覚・おべっか低減を体感したとの報告を踏まえ、業務文書作成・コードレビュー・ヘルスケアQAなどの高リスク記述作業には、ブラウジング+根拠付きフローをデフォルト設計にすることを推奨。
まだコメントはありません。