1 ポイント 投稿者 GN⁺ 2025-08-08 | 1件のコメント | WhatsAppで共有
  • GPT-5 APIは公式にリリースされ、開発者向けに新しい水準のコーディングとエージェント作業性能を提供する。
  • SWE-bench VerifiedAider polyglotなど主要ベンチマークで**最高性能(SOTA)**を記録し、Cursor(カーソル)、Windsurf、Vercelなど複数の顧客事例で優秀さを実証した。
  • 長時間実行のエージェント作業、高度なツール連携、長文コンテキスト処理など、複雑な実務での強みを示した。
  • **verbosityreasoning_effort**などのきめ細かなパラメータとカスタムツール対応により、開発者ごとのカスタム制御を可能にした。
  • gpt-5gpt-5-minigpt-5-nanoで幅広いコスト/性能オプションを提供し、Microsoftをはじめとする各種開発者ツールへ統合されている。

GPT-5のリリースと重要性

  • OpenAIはGPT-5をAPIプラットフォームで公開し、これまでにリリースしたモデルの中でコーディングとエージェント作業に最適化された最高性能であることを強調した。
  • 主要なコーディングベンチマークでSOTA(最高性能)を記録し、実際のスタートアップおよび企業テスターと協働して訓練した。
  • コード生成、バグ修正、コード編集、複雑なコードベースへのクエリなど、実際の開発業務で協働者として卓越した活躍を示した。
  • 詳細な指示を正確に遵守し、ツール呼び出しの前後に行動説明と計画の案内能力が向上した。
  • フロントエンド開発性能も優れており、内部テストで従来モデル比70%の優位が評価された。

主な顧客企業と実運用事例

  • Cursor、Windsurf、Vercel、Manus、Notion、Inditexは、GPT-5の知能、調整の容易さ、ツールエラー処理、コード品質を高く評価した。
  • 実配備環境で複雑なバックグラウンド処理、長期実行エージェントの役割、精巧なツール連携において、従来モデルより卓越した安定性と効率性を示した。

ベンチマークおよび性能指標

  • SWE-bench Verified(実際のソフトウェア課題パッチ):o3比較で74.9%の高性能を記録し、トークン数を22%削減、ツール呼び出しを45%削減して効率性を改善。
  • Aider polyglot(コード編集評価):88%を記録し、o3比較で誤答率を1/3にまで低減。
  • 複雑なコードベース分析では、大規模LLMを要求者の質問に合わせて高度化し、開発者/研究者が容易に活用できる。
  • フロントエンドコード生成は、審美性と正確性の両面でテスト時に70%優位。
広告

エージェント作業および長期コンテキスト成果

  • τ2-bench telecom(ツールコーリングベンチマーク)で96.7%を記録し、最新SOTAを更新。
  • 数十件のツール呼び出しを連続または並列で実行する高いタスク完遂能力
  • COLLIE、Scale MultiChallengeの指示実行評価で最高得点。
  • OpenAI-MRCR、BrowseComp Long Contextなどの長文コンテキストQ&Aでo3およびGPT-4.1を上回る性能を示した。
  • 最大400,000トークンの文脈長をサポートし、大規模ドキュメント/会話分析に適している。

信頼性と安全性

  • LongFact、FactScore評価でo3比較により80%以上事実誤りを削減。
  • 自身の限界を認識して通知し、特に健康関連の質問分野で精度を強化
  • 実運用時も依然として重要領域では開発者の検証を推奨。

開発者制御性とAPI新機能

  • reasoning_effort:minimal / low / medium / high の値で回答速度と推論品質のバランスを制御可能。
    • minimal: 高速応答、high: 高品質な論理的推論
  • verbosity:low / medium / high で出力長を調整。
    • 明示的な指示がある場合、パラメータより明示的指示が優先される。
  • カスタムツール:JSON以外の平文(plaintext)フォーマットもサポート。正規表現やContext-Free Grammarでツール入力形式の制約が可能。
  • 大規模なコード断片/レポートなどでJSONエスケープエラーの懸念を最小化し、開発者向けツール統合の容易性を向上。
広告

多様なAPIモデルと料金

  • gpt-5:$1.25/100万入力トークン、$10/100万出力トークン
  • gpt-5-mini:$0.25/100万入力、$2/100万出力
  • gpt-5-nano:$0.05/100万入力、$0.40/100万出力
  • すべてのモデルが reasoning_effort、verbosity、custom tools、並列ツール呼び出し、Web/ファイル/画像の組み込みツール、ストリーミングなどの主要機能をサポート。
  • gpt-5-chat-latestは、ChatGPT向けの非推論モデルとして同価格で公開。

統合と拡張性

  • Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundryを含む各種Microsoftプラットフォームへ統合して公開。
  • Cursor、Windsurf、GitHub Copilot、Codex CLIなどの開発者エージェントシステムの中核エンジンとして採用。
  • アルファテスター社内評価および各種コード/業務自動化製品で、従来モデルを超える新たな基準を提示。

安全性・信頼性・追加資料

  • ハルシネーション(誤答)発生可能性が大幅に低減し、作業プロセスと限界についてより正直に説明。
  • システムカードや社内リサーチブログなどで、実装・評価の詳細と安全対策を透明に提供。
  • 高度な自動コーディングパートナーとして、複雑なエージェンティブワークフロー自動化に特化。

結論

  • GPT-5は現在までのLLMの中で最も強力なコーディングおよびエージェント業務特化モデルであり、実際の開発環境と業務自動化に最適化された革新的パートナーである。
  • 進化したAPIおよびツール体制、幅広い容量と価格オプション、優れた評価結果により、開発者と組織に新しい生産性の時代を切り開く。

1件のコメント

 
GN⁺ 2025-08-08
Hacker News のコメント
  • Opus と GPT-5 でのソフトウェア開発の専門性について実質的な差はあまり感じておらず、私が本当に重視しているのは長時間にわたり文脈をどれだけ上手く維持し、与えられた目的に向かって進められるかという点だ。現実的なソフトウェアエンジニアリングではここが最も重要だと思うので、これを正確に測定・検証する評価指標が知りたい。
    • Charlie Labs でこの数週間、GPT-5 の長時間ワークフロー文脈維持実験を行い、かなり良い結果を得た。実際に GitHub Issue を 10 個解かせて Claude Code と比較したところ、驚くほど性能差が大きかった。関連実験はこちらで確認できる。通常 30〜45 分の複雑な文脈でも、方向転換があってもよく追従し、Linear や GitHub の大量スレッドもよくハンドリングした。Issue 数はまだ少ないがかなり印象的で、今後さらに拡張して性能測定を続ける予定だ。
    • 複雑で文脈が頻繁に変わる目的を毎日作ることが多く、こうした文脈保持が必須になる場面がある。GitHub Copilot が実際には既存のコーディング支援ツールの中で取り残されがちな点が残念だ。Anthropic、OpenAI、Google などの各モデルに比べて、あまり注目されずにいる。実際、spaces という web ベース機能を試したところ、IDE より大きな作業で良かった。ただ、文脈収集と結果レビューが私が直接行うより時間がかかる点が欠点で、既に文脈を集めて蓄積することに強みがあるように思える。
    • 現時点では、フロンティア LLM は与えられた文脈が十分なら、ほとんどの問題を解決できる。失敗するたびに、どの文脈が不足しているかを把握するのにほとんどの時間を費やすため、私が必要としているのは文脈をより集中して収集する能力だ。私のユースケースは大抵、コードファイル・Issue・PR・議論から本当に関連する資料をピックアップすることが重要で、GPT-5 がこの点で一段進化してくれることを期待している。Opus より安価で成果が同等かそれ以上ならなおさら期待が大きい。
    • GPT-5 の価格政策は Opus に比べてずっと良くなり、いまや Gemini 2.5 Pro と同じレベルまで下がっている。
    • GPT-5 が本当に 400k コンテキストで動作すれば、Opus を十分に超えるのに十分だと思う。
  • GPT-5-mini で RAG シナリオのテスト中だが、これまではかなり印象的だった。reasoning_effort="minimal" オプションを併用したところ、従来モデルが全部ハルシネーションしていた箇所でも唯一虚偽生成をしなかった。関連スクリーンショットはこちらに掲載した。今後、より正式な評価も行う予定。
    • 「プロダクトマネージャは何をする人?」という質問では、GPT-4 が部署間協業などの修辞を返したのに対し、GPT-5 は「分からない」と答えた。その一言で、AI が本当に目を覚ます瞬間を感じた。
    • phi-4 と gemma-3n も RAG シナリオで、提示された文脈だけを使い、文脈外の答えを無理に作らないため、ハルシネーション防止が改善していることを確認した。
    • 本当に最大の変化はここだと思う。私はツール呼び出しを多用するワークフローを扱うが、モデルが偽ツールをハルシネーションで作るのが大きな問題だった。さらにツール呼び出しをスキップして、根拠のない回答を即作ることもあった。最近のトレーニング報酬で、ハルシネーションとツールスキップ抑制が有意に強化されているのを確認している。
  • 最近1週間ほど Cursor、Claude Code など複数ツールでほぼ70時間ほど実験した。かなり印象的で信頼性も高まったが、実際に継続してうまくいくのはやはり Claude 系モデルだ。ベンチマークより実利用でこれが重要だと感じる。新しい gpt モデルがこのケースでうまく回ることを期待している。競争も活発になり価格も良いので期待中だ。
    • Cursor(1.4) の最新ツール更新のおかげで、Gemini などのモデルも以前よりずっと信頼できるようにツールが使える。以前はファイル修正のような基本操作でもよく間違えていたが、今ではほぼ毎回正しく動く。
    • この点は使うスタックにも左右されると思う。最近 t3.gg の Convex 紹介動画を見たが、動画Convex の構造は最初の試作時点でうまく形になるようにしてくれた。実際に使ってみて同感だった。今後の開発ワークフローは、複数 AI を並列で動かすには、まずコードに飛び込むより PM ツール(今は Linear が主流のようだ)でチケットを複数作成し、これを並列実行できるかを AI に任せて抽出したうえで、IDE や Warp で複数チケットを同時に処理する形に変わるだろう。私自身もまだ完全にこのやり方に切り替えてはいないが、今後そうすべきだと思っている。そしてそれには git worktree が必須だ。関連資料, ドキュメント, ブログ
    • 本当に「良い・信頼できる」と判断できるレベルでどこまで製品を作ってきたかが気になる。70時間あれば PoC までは作れるが、機能を追加し続ける段階での完成度が気になる。
    • OpenAI の reasoning ベースモデルはより良いコードと問題解決力を示すが、Claude Code の方が実用面で使いやすいと感じる。モデル自体が弱くても実運用ではこちらのほうが適していると考える。
  • ベンチマーク性能が同等なら、価格政策も非常に魅力的だ。入力トークン $1.25/100万、キャッシュ済み入力は $0.125/100万、出力は $10/100万。参考までに Claude Opus 4.1 は入力 $15/100万、出力 $75/100万だ。今重要なのはツール使用が Claude Code と比べてどれだけうまくいくかで、デモは良く出たが Tau2-bench airline では o3 より劣っており、まだ断定はできない。
    • 最近数時間直接テストした結果、Opus 4.1 と比べて GPT-5 が少しずつ良くなっていると感じる。数か月間 Claude Code 200 プランを使い続けるうちに、出力が次第に失望的になっていたので、GPT-5 は一歩前だと思う。
    • 2 つ以上のサブモデルが混在する構成で動いているのに、一律トークン価格を適用しているのは興味深い。実際には安価なモデルがより多く使われるように設計された予測ベースの価格に見えており、ユーザーが高性能モデルをよく使う場合、価格モデルが維持されるかが気になる。あるいは価格マージンが十分取られていて、気にしなくて済む可能性もある。
    • 価格はコストではない。現行価格はプラットフォームシェアのため意図的に低く抑えられているようだ。実際の運用コスト反映とは離れているかもしれず、3 月に受けた 40 億ドルのかなりの部分がこうした値下げ競争に投入されると予想している。
  • 「GPT-5 は agentic task のツール呼び出しベンチマーク(τ2-bench telecom)で 96.7% の新記録を更新」だという説明だが、airline ベンチでは o3 より低く、発表文は自社に有利な情報だけ強調しているように見える。
    • 当該グラフとセクションを実際に作成した立場として、telecom 側の評価データが良いことを強調したい。retail と airline ベンチは自動評価が厳しすぎて、1 つの解答のみを正解として採点するため、複数の良いソリューションが点数を得られない問題があった。telecom ベンチは結果状態を基準に採点し、多数の正答を許容することで自動採点の欠点を補完している。モデルの実性能シグナルがより明確になるので、telecom ベンチに注力するのが妥当だ。参考までに tau2-bench 論文も確認できる。さらにこうした評価では部分点がないため、わずかなミスが全体点数に大きく影響する。従って実性能は評価スコアより高いことも低いこともある。
    • コスト面が気になる。o3 はかなり高く運用されていると聞くが、GPT-5 がそれより安ければ、性能が近くても十分に意味ある改善と考えられる。
    • 本文では airline で低く出た点も触れられているので、これはトリック質問ではないと思う。
  • CFG(文脈自由文法)と正規表現サポートが興味深い。特に OpenAI API の JSON スキーマを実装する llguidance の Lark-like CFG とどこが違うのかが気になる。関連ソース
    • 今回の発表で最も楽しみにしているのは CFG と構造化出力だ。API、Google、OpenAI など他社ではこの部分が実利用でずっと問題になっていたので、できるだけ早く使ってみたい。
  • Cursor は数日間無料で使える。IDE/CLI で agentic coding のパワーユーザーとして活動してきたが、Cursor+GPT-5 の組み合わせは良い感じだ。時間があるときは必ず直接使ってみることをおすすめする。
  • 出力に対して文脈自由文法を直接強制する機能が登場して非常に驚き、興味深い。サンプリング段階でどうやって正しい文法を強制するのか気になる。
    • 「構造化生成」または「guided generation」の方式だろうと推測している。LLM を直接使えるなら以前から応用されてきた技術だ。例1例2 により、各トークン生成ステップで、全語彙ではなく現在の文法上で許可されるトークン集合のみを選択肢として与える。例えば JSON 文法なら { の次に来る有効トークンだけを提示する方式。
    • 文法生成規則上の有効トークンだけをサンプリングプールとして置くことで出力し、純粋推論(inference)プロセスで制約がかかる構造になっている。
  • ベンチマークで競合モデルと比べず、GPT-5 だけを自社の前世代と比較する姿は、まるで Apple が iPhone を自社の前世代だけと比べているように感じる。
  • 難しい問題を GPT-5 でテストしたところ、Gemini が解けなかった問題を十分分析して解決した。だがその後のコード修正は6回失敗した。GPT-5 の問題分析結果を Google Gemini に渡すと、Gemini がすぐに正しい修正コードを作成した。結論として ChatGPT は分析・コードレビューは得意だが、実際のコーディング能力は惜しい。
    • 私も Gemini(GCA)と CoPilot(Claude)で同じ問題で同じように分析し、同じ間違った解を出した。誤りを指摘しても、さらに間違った回答を返してくる。ChatGPT はまだ使ったことがないが、そろそろ試す予定。