GPT-5 公開
(openai.com)- GPT-5 は、コーディング、数学、ライティング、健康、視覚認識など全分野で既存モデルを上回る性能を提供し、高速応答と深い推論を状況に応じて組み合わせる 統合システム
- 「GPT-5 Thinking」 は複雑な問題により長い推論を適用して精度を高め、Pro プランのユーザーはこれを拡張した GPT-5 Pro により最高水準の性能を活用可能
- 実運用で ハルシネーション(誤った事実の生成) の比率を大幅に減らし、マルチモーダル理解・指示実行・複雑なツール連携作業の能力が向上
- フロントエンド UI 生成・大規模デバッグ など開発者支援が強化され、健康分野では HealthBench 最高スコアを記録し、積極的な健康パートナーの役割を果たす
- 安全性の面では 「safe completion」 訓練を導入して不要な拒否を減らし、生物・化学分野で高水準の多層防御体制を備える
GPT-5 概要
統合システム
- 1つのシステム内に スマート・高効率モデル、深い推論モデル(GPT-5 Thinking)、そして状況・複雑さ・ツール必要性・ユーザー意図に応じてそれらを選択する リアルタイムルーター を含む
- 利用量上限を超えた場合は、各モデルの「mini」版が残りの問い合わせを処理
- 今後はこれらの機能が単一モデルに統合される予定
性能と実用性の向上
- ベンチマーク全般で GPT-4o を大きく上回る性能
- ハルシネーション低減、指示実行の向上、迎合的応答(sycophancy)の最小化
- 3つの中核領域を改善
- コーディング: 複雑なフロントエンド生成、大規模リポジトリのデバッグ、美的感覚を反映した UI/UX 生成能力を強化
- ライティング: 構造的な曖昧さを処理しつつ、文学的な深みとリズムを備えた表現が可能で、日常的な文書作成・編集支援を強化
- 健康: HealthBench の最高記録、状況・知識水準・地域に合わせた安全で精密な回答を提供
評価結果
- 数学 94.6%(AIME 2025)、コーディング SWE-bench Verified 74.9%、マルチモーダル MMMU 84.2%、健康 HealthBench Hard 46.2% で SOTA を達成
- GPQA では GPT-5 Pro が 88.4% で最高記録
- マルチモーダル・ツール連携・多段階タスク処理能力が大幅に向上
効率的な推論
- 同等性能比でトークン使用量を 50~80% 削減
- 複雑かつ高難度の課題で GPT-5 Thinking は o3 と比べてエラー率とハルシネーション率を顕著に低減
信頼性と事実性の強化
- オープンエンドの事実性テストでハルシネーション率を 6 倍低減
- 実行不可能な作業や情報不足の状況では限界を明確に説明
- sycophancy 比率を 14.5% → 6% 未満に低減
安全性の改善
- 「safe completion」 訓練により、危険性のあるリクエストにも安全で有益な回答を提供
- 生物・化学分野の高リスクシナリオに備えた多層防御体制を適用
GPT-5 Pro
- 最も難度の高い課題向けの拡張推論モデル
- 専門家評価で GPT-5 Thinking より 67.8% 好まれ、主要エラーは 22% 減少
- 健康・科学・数学・コーディングで最高性能
利用方法とアクセス
- GPT-5 は ChatGPT の基本モデルとして適用され、従来モデル(GPT-4o、o3 など)を置き換える
- 「think hard about this」と入力すると推論モードを強制可能
- Plus・Pro・Team・Free に順次提供、Enterprise・Edu は 1 週間後に適用
- 無料ユーザーは上限超過時に GPT-5 mini へ切り替え
GPT-5 開発者向け主要内容
性能と特徴
-
コーディング性能:
- SWE-bench Verified 74.9%(o3: 69.1%)、トークン使用量 22%↓、ツール呼び出し 45%↓
- Aider polyglot 88% でコード修正のエラー率が 1/3 に減少
- フロントエンドコード生成では o3 比で 70% 好まれる
-
エージェント作業:
- τ 2-bench telecom 96.7%、複数ツール呼び出し・並列呼び出しの安定性が向上
- 進行状況・計画をユーザーに可視化して知らせるプリアンブルメッセージを出力可能
-
長文コンテキスト:
- OpenAI-MRCR(2 needle 128k)95.2%、BrowseComp Long Context(256k)88.8%
- 最大 40 万トークンのコンテキストを処理
新しい API 機能
reasoning_effort:minimal~highの範囲で推論時間を調整verbosity:low~highで回答の長さのデフォルト値を設定- カスタムツール: JSON の代わりに plaintext で呼び出し可能、正規表現/文法制約をサポート
- 並列ツール呼び出し・Web 検索・ファイル検索・画像生成などの基本ツールを内蔵
- プロンプトキャッシュ・Batch API などコスト削減機能をサポート
安定性と信頼性
- LongFact・FactScore ベンチマークでハルシネーション率を o3 比で ~80% 低減
- 自己限界の認識・予期しない状況への対処能力を強化
- 高リスク・高精度要求タスク(コード・データ・意思決定)に適する
Availability & pricing
提供サイズとエンドポイント
- サイズ構成:
gpt-5・gpt-5-mini・gpt-5-nanoを提供 - 対応インターフェース: Responses API、Chat Completions API、Codex CLI のデフォルト として利用可能
- モデル特性: API の GPT‑5 系列は reasoning モデル であり、ChatGPT の non‑reasoning モデル は別 ID で提供される
価格表と課金単位
gpt-5: 入力 $1.25/100万トークン、出力 $10/100万トークンgpt-5-mini: 入力 $0.25/100万、出力 $2/100万gpt-5-nano: 入力 $0.05/100万、出力 $0.40/100万gpt-5-chat-latest(非推論): 入力 $1.25/100万、出力 $10/100万 でgpt-5と同一
対応機能の要約
- 推論制御:
reasoning_effortにminimal・low・medium・highを指定して 速度↔精度 のトレードオフを調整 - 応答長:
verbosityで 短め/標準/長め の基本傾向を設定 - ツーリング: custom tools で plaintext 引数 の呼び出しをサポートし、regex/CFG 制約 を適用可能
- 実行機能: 並列ツール呼び出し、内蔵ツール(web search, file search, image generation など)、ストリーミング、Structured Outputs をサポート
- コスト最適化: プロンプトキャッシュ、Batch API でトークン・レイテンシコストを削減
- 展開チャネル: Microsoft 365 Copilot、Copilot、GitHub Copilot、Azure AI Foundry 全般に GPT‑5 が適用される
簡単なコスト例
gpt-5で 入力 50k + 出力 5k トークン を処理した場合、総コストは約 $0.1125- 計算式: 入力 0.05M × $1.25 = $0.0625、出力 0.005M × $10 = $0.05、合計 $0.1125
- 同じ作業を
gpt-5-miniで処理した場合、総コストは約 $0.0175- 入力 0.05M × $0.25 = $0.0125、出力 0.005M × $2 = $0.01、合計は $0.0225 が正しいが、出力単価を考慮すると 入力比率が高いワークロード で差がより大きくなる
- 大量の生成出力 が多いパイプラインでは、出力単価が低いモデル を選ぶ動機が大きい
選択ガイドメモ
- 精度が最優先 で 複雑なツール連鎖 が必要なバックエンドエージェントなら
gpt-5を検討 - 日常的なコード編集・軽量エージェント・大量バッチ処理には
gpt-5-miniが コスト対品質 のバランスで有利 - 超低遅延・超低コスト の前処理・ルールチェック・簡単な要約には
gpt-5-nanoが適する
参考
- ChatGPT の non‑reasoning 基本モデル をそのまま使いたい場合は、API で
gpt-5-chat-latestを選択 - 応答長は 明示的な指示文が優先 されるため、
verbosityに関係なく「5段落のエッセイ」のように具体的な長さを指示すれば その指示に従う
5件のコメント
個人的には、リファクタリングは
claude-codeのほうが優れている気がします。cursor + GPT5で不要なメソッドの削除やこうしたリファクタリング作業をさせたとき、claude-codeはうまく見つけて削除してくれる一方で、GPT5 はプロジェクト全体を把握できていないように感じました。使い勝手が飛躍的に向上したのは実感できますが、あれほど大騒ぎされていたAGIに近づいたという反応は、やはり誇張でしたね
コーディング(SWE-bench)の面だけを見ると 74.9%(thinking)、52.8%(without thinking)で、Claude は 74.5%(Opus 4.1)、72.5%(Opus 4.0)、62.3%(Sonnet 3.7)でした。
Thinking mode を使わなければ Sonnet より悪く、使っても Opus 4.1 よりごくわずかに良いですね。
OpenAIの公式発表動画(1時間17分) https://www.youtube.com/watch?v=0Uu_VJeVVfo
Hacker Newsの反応
AI企業のどこか1社がAGI(汎用人工知能)の閾値を超えれば単独で先行する、という主張は多かったが、実際にはすべてのモデルの性能が次第に似通ってきているのが興味深い。現在はGPT-5、Claude Opus、Grok 4、Gemini 2.5 Proのいずれも全体的に高い性能を示しており、ユーザーの立場から見ると競争はこれまでになく激しくなっている印象がある。今後、AI競合各社のサービスがさらに似ていくのか、それとも差別化されていくのか、研究者の意見が気になる
ある閾値を超えると、ユーザーの立場ではどのモデルがより優れているのか見分けにくくなる可能性がある点に注目している。たとえばチェスELO 1000のユーザーがマグヌス・カールセンと別のグランドマスターの両方と対戦しても、どちらがより強いか簡単には判別できないのと同じで、人間の評価基準によるクラスター現象は実質的には錯覚かもしれない
AGIがシンギュラリティを生むとされるのは、自ら学習できるからだ。現状ではそこに到達するにはまだ非常に遠く、個人的には自分の生きているうちにAGIを見る可能性はほとんどないと思っている。1970年代のメインフレームとLLMの距離が、今のAGIとの距離に近いと見ている
確率的なテキスト予測モデルでより高次の知能をシミュレートすること自体、不可能かもしれないと考えている。AI研究者の友人たちも、LLMベースのAGIについては、データに対する性能向上の限界(収穫逓減)があるため心配していない。人間の知能は少ない例でも優れた一般化が可能だが、LLMは主として学習データによく出てきた答えを再生産する。しかしAGIでなくても、現存のAI/ML/SL技術が世界を変える転換点はあるはずで、たとえば幅広い知識の再現が重要な検索のような分野ではなおさらだ
以前はAIに対して悲観的だったが、今は現在の技術パラダイムが短期間でAIの終末につながることはなさそうだという見方に70%ほど傾いており、それは幸いだと思う。今のAIが「私たちを模倣する」ことに特化していて、平均的な人間の出力を超えられないのは、むしろ今のところは祝福だ。それでも原理的には、いわゆる「AIドゥーマー」の主張には一理あり、脅威を真剣に受け止めるべきだと思う
もっと複雑な百科事典を作り、興味深い検索インターフェースによってあたかも人間のような印象を与えればAGIに近づく、という主張には同意できない。肝心の一般知能(GI)がどこから生まれるのかについて、誰も証拠を持っておらず理解もしていない。確かな根拠のない誇張と資金調達のための大言壮語にすぎず、AGIを実現可能なものとして宣伝する人々はペテン師だと思う。業界で多くのエンジニアがこの論理に完全に乗せられている現実には本当に驚くし、業界の健全性に疑問を感じる
GPT-5の知識カットオフは2024年9月30日(公開の約10か月前)、Gemini 2.5 Proは2025年1月(3か月前)、Claude Opus 4.1は2025年3月(4か月前)。関連リンク: OpenAIモデル比較, DeepMind Gemini Pro, Anthropic Claudeモデル概要
今はWeb検索が可能になっているので、知識カットオフにどれほど重要な意味があるのか疑問だ。むしろ、ポストトレーニングにどれだけ時間がかかったかを示す指標かもしれない
Geminiはほぼすべてのクエリで簡単なWeb検索を通じて、知識カットオフ後の情報の空白を埋めようとしている
GPT-5 nanoとminiはカットオフがさらに早く、2024年5月30日だ
モデルがWeb検索できるので、知識カットオフ自体はそれほど重要ではないと思う
むしろOpenAIが安全性の面でいかなる近道も許していないことを意味しているのかもしれない
GPT-5システムカードによると、GPT-5は複数のモデル(高速回答用、深い推論用)とルーターが結合された統合システムだ。チャット中に「これを真剣に考えて」のようなプロンプトに応じてルーターがモデルを選択する。見た目は1つのシステムだが、実際には複数のサブモデルが組み合わされた構造になっている。1つの巨大モデルをEnd-to-Endで学習するにはコストが高すぎるため、この方式を採ったようだ
意味上の違いかもしれないが、構成要素が自動的に動作し、ユーザーは1つのインターフェースだけを使う構造なら「統合システム」と呼べる。もちろん「統合モデル」ではない
巨大な汎用システムよりも、特定の予算範囲内では手作業で設計された特化型システムの方がはるかに優れた性能を示すという、"bitter lesson"に対応する理論を改めて確認した
開発者向けGPT-5によると、ChatGPTにおけるGPT-5は複数のモデル(推論、非推論、ルーターなど)が結合されたシステムだ。APIのGPT-5は最大性能の推論モデルだけが単独で提供される。一部のChatGPTの非推論モデルは
gpt-5-chat-latestとして提供され、開発者向けにチューニングされている小さな特化型モデルを多数組み合わせるのが進むべき正しい方向なら、この戦略は望ましい
問題はコストではなく、利用可能なトレーニングデータが枯渇して効果的な学習が難しくなっているか、新しいデータがAI生成データに汚染されて使えないことなのかもしれない
大きなベンチマークのミスもあり、デモも期待ほど印象的ではなかったため、年末時点で最高のAIが誰になるかをめぐるベッティング市場にも大きな変化があった。Gemini 3.0やGoogleの新モデルの方により期待しており、LLM競争では「最後に登場する側」が有利かもしれないと思う
実際にOpus 4.1で失敗していた作業をGPT-5で試してみたが、単に成功させただけでなく、Opusが出したミスまで修正した。本物だと実感した
すでに数兆ドルの時価総額を持つ独占企業が世界のすべてを支配するような状況は望まない
実際のテストでは非常に優れたモデルだと感じた。質問に答える際、4.1やo3よりもはるかに積極的にツールを最大限活用しようとするのが目立つ。たとえば最初の回答で、情報取得のために6回もツール呼び出しをしていた。例: ツール使用例
マーケティング文句やライブストリームで示される論理が「より良いからより良い」というレベルで自己反復的だ。なぜGPT-5にメジャーバージョンアップが必要なのか、まだ明確な根拠説明が不足している。いつものように、最終的には成果物そのものの雰囲気("vibe check")がモデルの信頼性を決めるだろう
この6か月ほどで人気のJSライブラリが最新トレーニングセットに含まれるようになり、それで「コーディングにより強くなった」と言っているが、このやり方が持続可能かは懸念がある
宣伝ばかりで実際のデータやベンチマークが不足しているので、simonwのような実践的ユーザーの短い感想でも待っている
高難度のコードリファクタリングなど、LLMの限界まで試してみたが、以前のモデルに比べて根本的な品質向上は感じにくい。現時点では品質向上が限界点(Sカーブの減速区間)に達しているように思える。同じ品質をより安く提供するのは意味があるが、日常的な利用では品質の変化を体感しにくい
GPT-5導入ページにはさまざまなベンチマーク結果(AIME 2025、SWE-benchなど)が含まれているが、特に破格の結果ではない
今は「最新だから欲しくなるスマートフォンの時代」に入った感じがする
ライブストリームを見る限り、既存モデルに対するベンチマーク改善は非常に小さい。公開前から期待値を下げようとしていたのは理解できるが、実際には期待よりもはるかに小さな改善だ
公開前にサム・アルトマンがデス・スターの画像をツイートして期待感を持たせた
AIビッグテック企業が似た領域で競争しつつ差別化できず、OpenAIは今後、超高度知能よりもコスト最適化や日常的・業務用アシスタンス用途にさらに集中していくように思える。一方でAnthropicとGoogleは成長率にまだ余裕があり、より高い知能への投資ができるため、結果としてoシリーズなどでより賢いモデルが出るかもしれないが、結局は売上と市場の現実が限界になる
GPT-5はWebDev ArenaでGemini 2.5 Proを75点、Claude Opus 4を100点上回って1位だ。参考: lmarena.ai リーダーボード
コードデモはほとんどがCursorベースのGPT-5 MAXで行われており、多くのユーザーはこのMAXモードを頻繁には使えない。通常版でも実演してほしかった
サムが2年前に「ショッキングな単発発表ではなく、漸進的な進歩を選ぶ」と言っていたことを思い出す。まだ1日目なので、今後数か月でさらに10〜20%の追加最適化の余地はあるかもしれない
この発表資料のy軸が何なのか混乱する 関連グラフ論争
ChatGPT 5のデモ例で「飛行機の翼(エアフォイル)」の動作原理について誤った説明が示された。(上側の空気はより長い距離を進まなければならないので速くなり圧力が下がり、下側は遅く圧力が高いため揚力が生まれる)という説明だったが、実際には上下の空気が同時に到達しなければならない物理的根拠はない。関連記事: ケンブリッジ大学。最初のデモから誤った説明を使っていたのは奇妙だった
完全に間違った説明だ。もしその説明が正しければ、平板のエアフォイルは揚力を生み出せないはずだが、現実は違う。航空機設計で博士号を取った経験から言っている
これは非常に有名な誤解(equals transit time fallacy)なので、航空工学の専門家でなくてもこの誤りは聞いたことがあるはずだ
"PhD級"という表現は奇妙だ。本当の博士なら既存情報を超えて新しい科学を生み出さなければならないが、これまでLLMが自力で新しい科学を生み出したのを見たことがない。基本的にLLMは優秀なワードパーサーにすぎない
NASAも誤った説明について別途説明サイトを運営している
Bartoszのthis field explanationがこの分野の説明として最も優れている
GPT-5のコンテキストウィンドウは40万、最大出力は12.8万トークン、入力は$1.25、出力は$10.00。公式ドキュメント この性能でneedle-in-haystack問題において優秀と評価されるなら、Gemini 2.5 ProやClaude Opus 4.1に比べて圧倒的に競争力があるだろうし、mini/nano版まできちんとできているなら、むしろ非常に大きな飛躍だ
gpt-5のカットオフは2024年10月1日だが、mini/nanoは2024年5月31日だ。従来の4.1製品群は1M/32kトークンをサポートし、価格は入力トークンが37%安く、出力トークンは25%高くなった構造だ。nano製品だけは入力が50%安く、出力価格は同じだAPIを使うなら、本人確認にかかるコスト(時間、手続きなど)も考慮すべきだ