GPT-5: 主要な特徴、価格、システムカード
(simonwillison.net)- GPT-5は、リアルタイムルーターが対話コンテキストに合わせてモデルを切り替える統合システムとして動作し、APIではRegular・Mini・Nanoの3種類にMinimal・Low・Medium・Highの4段階推論レベルを提供する。
- 入力272,000トークンと出力128,000トークンの上限をサポートしており、入力はテキスト・画像、出力はテキストのみをサポート。
- 価格は攻めた価格設定で、GPT-4oと比べて入力単価が半額。最近数分以内に再利用される入力にはトークンキャッシュ90%割引が適用される。
- システムカードでは幻覚低減、指示実行の向上、おべっか最小化とともに、Safe‑Completions訓練により二値的な拒否ではなく安全な範囲の応答を志向している。
- セキュリティ面ではプロンプトインジェクション対策が改善された一方、k=10試行基準で56.8%の成功率という未解決領域があり、APIではreasoning要約とreasoning_effort=minimalオプションで推論トークンの流れを制御できる。
GPT-5 : 主要な特徴、価格、システムカード分析
- 著者Simon Willisonは2週間のプレビューアクセス権でGPT‑5を日常的に試験運用し、劇的な進化ではないが全体として非常に有能で、誤りの発生が少なく、一貫したデフォルトモデルとして使いやすいという印象を受けた。
- 本稿は連載の第1回として、コア特性、価格、システムカードから読み取れる内容を整理する。
モデルの主要特性
- ChatGPT環境でGPT‑5は高速な一般モデルと深い推論モデルを統合し、対話タイプ・難易度・ツール必要性・明示的な意図に応じてリアルタイムルーターが適切なモデルを選ぶハイブリッド構成として動作する。
real‑time routerは対話タイプ、複雑さ、ツールの必要性、 「think hard」のような意図シグナルに基づいてモデルを選択し、利用上限が尽きると各モデルのminiバージョンが代替する、という説明がシステムカードに含まれている。
- APIはRegular・Mini・Nanoの3種類に簡素化され、各モデルはMinimal・Low・Medium・Highの4段階推論レベルをサポートする。
- コンテキスト上限は入力272,000トークン、出力128,000トークンで、見えない推論トークンも出力トークンとして計算される。
- 入出力はテキスト・画像入力、テキスト出力のみで、知識カットオフはGPT‑5: 2024‑09‑30、Mini/Nano: 2024‑05‑30。
- 全体のGPT‑5利用では正確で安定した応答傾向を感じ、別モデルで再試行したくなる場面はほとんどなかった。
OpenAIのモデルファミリーにおける位置付け
- システムカードのマッピング表によれば、既存のラインナップはGPT‑5系へ置き換えられる位置付けを示す。
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
- thinking‑proは現在、**ChatGPTの「GPT‑5 Pro」**として表示され、月額$200ティアでのみ提供され、parallel test‑time computeを使用する。
- 音声入出力と画像生成は依然としてGPT‑4o Audio/Realtime、GPT Image 1/DALL‑Eが担当し、機能の境界線は維持されている。
価格は積極的に競争力
- 価格は攻めた設定である。
- GPT‑5: 入力 $1.25/100万、出力 $10/100万
- GPT‑5 Mini: 入力 $0.25/100万、出力 $2.00/100万
- GPT‑5 Nano: 入力 $0.05/100万、出力 $0.40/100万
- GPT‑4oに対して入力単価は半分で、出力単価は同じ。
- 推論トークンは出力トークンとして請求されるため、同じプロンプトでも推論レベルにより総コストが異なる。
- トークンキャッシュ90%割引があり、会話コンテキスト再送信が頻繁なチャットUIではコスト削減効果が大きい。
- 競合比較表では、Claude Opus 4.1、Claude Sonnet 4、Grok 4、Gemini 2.5 Proが入力$2.5〜$15/100万、出力$10〜$75/100万の水準と示され、GPT‑5系の単価優位が示された。
- 表の自動ソートをGPT‑5に任せた結果、価格比較を一部誤ってソートしてしまったケースがあり、Pythonでテーブルを構成して並び替えると問題が解消された。
システムカードの追加ノート
- 訓練データ構成は公開ウェブ、提携データ、ユーザー/ヒューマントレーナー生成データを含み、個人情報の縮減フィルタを適用したという原則的な説明がある。
- 主要な改善軸として幻覚低減、指示実行向上、おべっか最小化が強調され、ChatGPTの主要3ユースケースとしてwriting・coding・healthを挙げ、該当領域の性能強化を行った。
- Safe‑Completionsは二値的な拒否ではなく出力の安全性を重視する出力中心の安全訓練で、生物学・セキュリティなど利用者の意図を判別しにくいデュアルユースクエリに対して、詳細なリスクを抑えつつ有益性を維持する。
- Sycophancyについては、実運用対話分布を反映した評価と報酬信号でおべっか的同調傾向を下げる事後訓練を実施。
- 事実性の観点ではブラウジングをデフォルトで有効にし、ツールなしで内部知識だけで回答する際の幻覚率低減を目標として訓練。
- 詐欺・虚言の防止のため、不可能なタスクで「不可能」と率直に認めるよう報酬設計を行い、ブラウジングなどのツールを意図的に無効化して偽の応答を抑制するシミュレーション評価も実施。
システムカードにおけるプロンプトインジェクション
- 外部レッドチーム2チームがシステムレベルの脆弱性とコネクタ経路に焦点を当て、プロンプトインジェクション評価を実施したという結果が含まれている。
- 比較チャートでは、**gpt‑5‑thinkingの攻撃成功率がk=10基準で56.8%**となり、Claude 3.7/その他多くのモデルの60〜90%台より低い数値を示したが、なお半数以上が突破されるため、完全解決には程遠い。
- 結論として、モデル改善が進んでも****製品設計上の防御とガードレールは必須前提として扱うべき。
APIのThinkingトレース
- 著者は当初、推論トレースは公開されないと認識していたが、Responses APIで
reasoning: { "summary": "auto" }を使うことで推論要約を受け取れる。 - このオプションなしで深い推論レベルを使うと、可視出力前にかなりの推論トークンが消費されるため遅延を感じる場合があり、
reasoning_effort=minimal設定により高速なストリーミング応答を促進できる。
ペリカンのSVG例
- 著者の常時SVGベンチマークである「自転車に乗るペリカン」生成では、GPT‑5(デフォルトMedium推論)の結果はバイクのディテールと形状精度が高く、可読性の高いベクターを示した。
- GPT‑5 Miniは色・グラデーション表現は豊富だが、ペリカンの首が2本となる構造的エラーが見られた。
- GPT‑5 Nanoは自転車とペリカンの形状が簡略化され、機能的な要約レベルの結果を返す。
実務ポイント要約
- モデル選択: Regularで始め、十分であればMini/Nanoへダウンシフト、深い問題にはthinking系・高い推論レベルを検討する必要がある。
- コスト管理: トークンキャッシュ90%、reasoning_effort=minimal、短いシステムプロンプト・要約したコンテキストで出力トークン・推論トークンを削減する戦略が有効。
- セキュリティ設計: プロンプトインジェクションはなおリスクが残るため、コネクタ権限の縮小、出力検証、安全な出力テンプレートなどシステム的対策の併用が必要。
- 領域適用: writing・coding・healthで幻覚・おべっか低減を体感したとの報告を踏まえ、業務文書作成・コードレビュー・ヘルスケアQAなどの高リスク記述作業には、ブラウジング+根拠付きフローをデフォルト設計にすることを推奨。
1件のコメント
Hacker News のコメント
とても素晴らしいと思えて、信頼性が高まったのが嬉しい。ただ、ここ2年で人々が期待してきたGPT-5のイメージを考えると、世界観をひっくり返すような画期的革新というより、漸進的で安定した改善にとどまっているのが少し残念だ。純粋にスケール拡大だけで進歩できたなら、OpenAIは既存のユーザー・ルーティングシステムを少しずつ細かく調整して平均的なインタラクションを良くするために時間を使わずに済んだはずだという印象だ。私自身、データと計算資源を増やせばAGIに到達できるという主張に懐疑的だった。全体として、業界の閉鎖性が強まり、発表では実質的な情報よりもマーケティング文言ばかりが残っているように見えるため、現在のモデルがどんな状態か誰も分からないという感覚が大きな問題だ。巨大な投資の世界では、それもやむを得ないことかもしれない。将来、途轍もないモデルが公開される可能性を完全に否定することはできない
真の静かなイノベーションはツール活用とマルチモーダル能力の面で起きていると思う。一般知能は段階的に変化しているが、ツールのマルチステップ活用力と現実世界とのインタラクションは1年前と比較して劇的に向上している。こうしたフィードバックが最終的にさらに優れた知性へとつながると期待している
スケール拡張だけが決定打ではない流れがあるように思う。果たして投資家は、こうした方針を「根拠あり」と主張してきた人々に資金提供を始めるのだろうか。なぜLLMからAGIへという一方向だけに固執するのか理解できない。既に大規模プレイヤーで飽和した市場で、さらにもう一つのLLMスタートアップに投資する必要があるとは思わない。LLMがいつかAGIに到達するとしても、もっと速く安価に到達する方法は必ず出てくる。バックアッププランなしで進むこと自体がリスクでもある。技術のS字カーブ(成長曲線)はAIにもそのまま当てはまると考えている。定量的理論に慣れた数学・科学系の友人たちと私も、スケール拡大だけが答えという命題には疑問を感じている
GPUが様々な情報を学習して多様なタスクに活用できることが、いまや実証されたようだ。しかし、実際に有効に使うには各課題に対して適用方法を検討する追加作業が必須だ。もしGPTに「1年以内に1,000ドルで必ず10億ドル価値のスタートアップを作るには」と聞いて答えを得られるなら、すでに誰かがそれを実際にやっていただろう。しばらくはやはり人間が汗を流して取り組むことになるだろう。短期的には、よく起こるミスを減らす方向の訓練が現実的に意味があると考える
性能が4〜7か月に一度は2倍になっていると思う。この傾向は続いている。そんな速度自体がすでに常識外れだと思う。これ以上を期待することは逆に誇大広告に飲み込まれていることだ。1年に2〜3回性能が2倍になるこの状況が停滞だとは全く思わない 関連リンク
実際には性能の観点では漸進的アップグレードだが、製品の単純化という視点では、6か月前からもGPT-5の方向性として語られていた“飛躍”の道筋だった。これからAIの進化も今後は少しずつ、微細な改善の戦いになりそうな感覚がある
個人的には、OpenAIが『幻覚(hallucination)』が顕著に減ったと主張することに違和感を覚える。私の経験では、Claude 4(Sonnet、Opus)でもかなり些細または難しい質問でほぼ毎日のようにハルシネーションが起きる。かなり単純な部分でも同様だからだ
発表デモでも繰り返しハルシネーションが出た(ClaudeとGPTを有料・無料どちらも使うと毎回発生)。見えていなければ、実質的に嘘を言っているか無能だと考えてしまう。LLMの本質的問題は、人間の好みを学習するため、隠れた誤り(stealthy errors)に最適化される点にある。失敗率が低いにせよ、ステルス失敗を起こすツール利用には非常に慎重だ。こうしたモデルは作業速度を遅くし、デバッグが非常に難しくなる。たとえばPythonコードのインデントエラーのように見えないバグが生じることに似ている。だがそのソースエラーはエラーメッセージで原因をすぐ特定できるのに、LLMのステルスエラーはそうではないのが問題だ。結局これらの部分は「LGTM(Looks Good To Me)」で流してしまう文化を促進しているように思う
「あなた、間違っている」と言うだけでClaudeやChatGPTはすぐに自分で崩れつつハルシネーションを繰り返し、正誤に関わらず自信を持って主張することができないという問題がある
SimonはLLMを長く使っているので、質問のフレーミングでハルシネーションが出にくくなる感覚を身につけたのだと思う
入力による差があると思う。私が使ったClaude 4ではハルシネーションが本当に頻繁に起き、特にJSON生成時に文法上のエラーが多い結果をかなり自信満々で生成するケースが多かった
「お前、GPT5か?」「いや、まだ5は出てないけど、僕は4oだよ」「今日出たって」「あ、そうか、僕はGPT5だ」<i>「4oの無料利用上限に到達しました」</i>というような混乱、現実とモデル情報が混在する状況を経験した
OpenAIの攻撃的な価格政策はやや意外だ。もし本当に競争相手がいなければ、こうした数字を使う必要はないだろう。ということは競争が激化したことを意味すると思う
アプリ市場では圧倒的に勝っているのに、APIは逆にAnthropicに劣っている 関連記事
最近PRO顧客(私を含む)を失った影響だろう。PROモデルはPLUSに対して10倍の価格価値がなかったと思う。z.aiなど新規競合の登場でサービス差別化が難しくなっている
今回は事実上5%ほどの改善だと感じる。Gemini 2.5 Proとの価格競争で負けられないため、やむを得ずそうせざるを得ないと見る。Cursorがデフォルトを変更したのもその影響だと思う
Nanoモデルの5セントはかなり興味深い変化だ。このため、Googleもここ数か月ゆっくり上げてきた価格を当分の間、再び下げることになるかもしれないと考える
ただ単に、もっとデータが必要だったからこの方針を出したのだと思うこともある
APIでGPT-5がregular、mini、nanoモデルで構成され、各モデルで4段階のreasoningレベル(minimal、low、medium、high)が選択できるようになったため、以前のGPT 4.1で3種類(regular、mini、nano)しかなかった時よりむしろ複雑になってしまったのではないかと感じている。今はミニモデル1つでもminimalからhighまで4段階があるので、総計8つのオプションがあり、毎回どの場面でプロンプト調整が良いか、バージョンやreasoningレベルの切り替えが良いか、悩むのが現実だ
実際、reasoningレベルごとにすでにo3-mini-high、o3-mini-medium、o3-mini-low、o4-mini-high、o4-mini-medium、o4-mini-lowなど多くの選択肢が追加されていた。むしろGPT-5の方式のほうが単純に見える
各モデルはn=1,2,3、reasoningレベルはm=0,1,2,3という方式なので、どの組み合わせがより高いレベルに上がるのかが直感的に分かる
「より簡単だ」という意味は、以前はチャットサービスやAPIのchat-optimizedモデルがヒューリスティックでreasoningレベルとモデルを切り替えるハーネスを使っていたのに対し、APIではユーザーが直接モデル種類とreasoning effortを選ぶ明確なメンタルモデルを持てるようになることを意味すると解釈している。選択肢は多いが、選択方法はより明確になっている
結局OpenAIはトークン単位で課金する構造だから、いくつものバージョンをいろいろ試さざるを得ない
reasoningモデル(GPT-5を含む)でパラメータ(temperature、top-p)を直接調整する機能がなくなった理由が気になる。小さなタスクでは一貫性が重要だが、この機能がないと対応が難しく、APIでこのオプションを細かく制御することがユーザーにとって非常に重要に感じる
数十億ドルの企業でありながら、採用・ビジネス・教育などのさまざまな実利用領域があるのに、BBQのような人工的なベンチマーク1つだけでモデルのフェアネスを評価するのは残念だ
pelicanが自転車に乗るSVG画像は、なおAIにとって難しい問題であるという点が滑稽でありながら面白い
前回と違い、ツールをうまく使ってコンテキストを集めるよう訓練された姿が見える。実際、4.1とo3に対しては、最初のターンで7種類のカテゴリごとに結果を一気に呼び出すなど、かなりクールな方法で解決した。ツール呼び出しが増えるとトークンも増えるが、今回の攻撃的な価格政策のおかげでそれは大きな問題にならないだろう。プロンプト設計を上手く行えば、ツール利用頻度も減らせる 関連例
Simonの簡潔で几帳面なレビューのおかげで、実際の結果を理解するのに本当に役立った
Claudeとo3も今年のモデルではハルシネーションがずっと少なくなったという意見に対し、投稿者は記事の該当部分で意図を明確に追加し、説明を補完している