GPT‑5.2を公開
(openai.com)- GPT‑5.2は専門知識業務向けの最も強力なAIモデルシリーズで、コード作成・画像認識・複雑なプロジェクト遂行能力が向上
- GDPval評価では44職種の知識業務タスクのうち70.9%で業界専門家を上回るか同等を記録し、速度は11倍、コストは1%未満
- SWE‑Bench Pro 55.6%、GPQA Diamond 92.4%、**ARC‑AGI‑1 86.2%**など主要ベンチマークで最高性能を達成
- 長文脈理解(256kトークン)、視覚情報処理、**ツール活用(98.7%)**などでGPT‑5.1比の大幅な改善を示す
- ChatGPTとAPIで段階的に展開され、専門家向けの生産性と信頼性向上を目指す
GPT‑5.2の概要
- GPT‑5.2は専門知識業務向けAIモデルシリーズで、スプレッドシート作成、プレゼンテーション制作、コード作成、画像認識、長文理解、ツール使用、複雑なプロジェクト遂行能力を強化
- ChatGPT Enterpriseユーザーはすでに1日平均40〜60分、週あたり10時間以上を節約しており、GPT‑5.2はこの効率性をさらに拡張
- ChatGPTではInstant、Thinking、Proの3バージョンで提供され、APIでは開発者に即時提供
モデル性能
- GPT‑5.2 ThinkingはGDPval評価で初めて専門家レベル以上の性能を達成
- 44職種の知識業務タスクのうち70.9%で専門家を上回るか同等
- 専門家比で11倍高速、コストは1%未満
- 内部評価では投資銀行分析向けスプレッドシートモデリング課題のスコアがGPT‑5.1比で9.3%向上(59.1% → 68.4%)
- SWE‑Bench Pro 55.6%、**SWE‑Bench Verified 80%**でソフトウェアエンジニアリング性能が向上
- 実際のコードデバッグ、機能実装、リファクタリング、デプロイ作業をより安定して実行
- フロントエンド開発と3D UI作業でもGPT‑5.1比で改善
- 誤答率が30%減少し、ハルシネーションの頻度が低下
長文脈理解と視覚認識
- OpenAI MRCRv2評価で長文書の統合理解性能における最高記録
- 256kトークンまでほぼ100%の精度を達成
- レポート、契約書、論文など長文書の分析に適する
/compactエンドポイントと互換性があり、コンテキスト拡張型ワークフローをサポート- 視覚認識性能の向上により、チャート、ダッシュボード、UIスクリーンショットなどで誤り率が半減レベルまで低下
- 画像内構成要素の空間配置の理解能力を強化
ツール活用と複合タスク
- **Tau2‑bench Telecom 98.7%**でツール使用能力の最高記録
- 複数段階の顧客支援、データ収集、分析、結果生成などエンドツーエンドのワークフロー遂行能力を強化
- 例: 航空便の遅延・乗り継ぎ・補償請求など複合的なカスタマーサービス手順を完全に処理
科学・数学・推論能力
- GPQA Diamond 92.4%、FrontierMath Tier 1–3 40.3%、ARC‑AGI‑1 86.2%、**ARC‑AGI‑2 52.9%**で主要学術ベンチマークの最高記録
- GPT‑5.2 ProはARC‑AGI‑1で90%を突破し、費用対効果は390倍向上
- GPT‑5.2 ProとThinkingは科学研究の加速に活用可能
- 実際の研究で統計学の理論証明を提案し、検証を受けた事例を提示
ChatGPT内での利用体験
- GPT‑5.2 Instant: 高速応答と明確な説明を提供し、日常的な学習・作業向け
- GPT‑5.2 Thinking: コード作成、長文要約、数学・論理問題の解決、計画立案など複雑な作業に適する
- GPT‑5.2 Pro: 高難度の質問に高い信頼性の回答を提供し、誤答率を低減
安全性強化
- GPT‑5.2はGPT‑5のSafe Completion研究を基盤に、自殺・メンタルヘルス・感情的依存に関する対話応答を改善
- GPT‑5.1比で不適切応答の割合が減少
- 年齢予測モデルを導入し、18歳未満ユーザーに対するセンシティブコンテンツへのアクセスを制限
- ChatGPTの過剰拒否(over‑refusal)問題の改善作業を進行中
価格と提供方式
- ChatGPT有料プラン(Plus、Pro、Business、Enterprise)から段階的に展開
- APIでは
gpt‑5.2、gpt‑5.2‑chat‑latest、gpt‑5.2‑proとして提供 - 価格: 入力100万トークンあたり**$1.75**、出力100万トークンあたり**$14**、キャッシュ入力は90%割引
- GPT‑5.1より単価は高いが、トークン効率の向上により総コストを削減
- GPT‑5.1は3か月間維持した後、段階的に終了予定
- Codex最適化バージョンは今後公開予定
技術パートナーシップ
- NVIDIAおよびMicrosoftと協力してGPT‑5.2を開発
- AzureデータセンターとH100、H200、GB200‑NVL72 GPUインフラを活用
- 大規模学習の効率とモデル知能の向上を支援
主要ベンチマーク要約
- GDPval: 70.9%(GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k): 77.0%
- CharXiv Reasoning (w/ Python): 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified): 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2は知能、信頼性、生産性の面で前世代モデルを大きく上回り、専門家レベルの実務支援AIとして位置づけられる。
1件のコメント
Hacker Newsの反応
この数か月、ChatGPT を有料で使っていて、コーディング、ニュース、株式分析、日常の問題解決など、ほぼあらゆる用途に使ってきた。
しかし Gemini 3 がリリースされて使ってみると、あらゆるユースケースでずっと良い結果を出した。
特に ウェブ検索統合 が必要な最新情報の探索で強みを見せた。OCR も素晴らしく、自分の悪筆もちゃんと認識する。
ただしアプリのバグが多く、セッションが頻繁に切れ、写真アップロードのエラーもある。
一番不満なのは、すべてのリンクが Google 検索を経由するため、直接サイトに行くには修正しなければならないこと。
全体としては、ChatGPT は 検索統合力 で後れを取っていて、追いつくのは難しそうだという結論になった
中断しただけでデータが消えるほどで、典型的な Google流の未完成製品 という感じだ。
音声モードのアイデアは良いが、頻繁に壊れ、勝手に質問を繰り返す
ChatGPT は PDF やスクリーンショットを開いて OCR 入力 として活用するが、Gemini は無視する
ただ今はブラウザが自前で処理するので、わざわざ Google にクリック情報を送る必要はない。
直接リンクに直しても問題ない
Opus 4.5 は品質がより良いが、利用制限が厳しいので複数のサブスクを併用するか悩んでいる
OCR より音声機能を多く使う立場なので致命的だ。
「検索統合が強み」という主張も理解できない。最新情報の検索で ChatGPT が実際により悪かった例が気になる
ブログ告知にはないが、実際の コンテキストウィンドウのサイズ は40万トークンだ。
公式ドキュメント に明記されている。
コンテキスト全体の活用能力も改善されたとのことで期待している。
Rust/CUDA プロジェクトで Codex 5.1 を使っていて Gemini 3 に移ったが、最初はバグをよく見つけてくれて感心したものの、すぐに 命令無視、出力崩れ、不透明な推論過程 のせいで発狂しそうになった。
Codex に戻ると安定していてフィードバックもよく反映する。いまや GPT‑5.2 xhigh モードまで出て、まるでクリスマスプレゼントをもらった気分だ
昔のように率直に問題と解決策を議論していたフォーラム文化が恋しい
多くの開発者が、1つのセッションで料理、贈り物、コーディングなど あらゆる話題 を混ぜて使い、妙な返答を受け取るのを見てきた。
LLM は会話全体の文脈を継続して送るので、話題ごとに新しいチャットを始めるべきだ。
そうしないと「妻はグローバル変数をどう思うか」みたいな奇妙な答えを聞くことになる
Cursor や ChatGPT のようなアプリは、たぶん理解しづらいと思う
コンテキストウィンドウという概念 を知らなければ、AI がただ愚かに見えることもある。こうした理由で、人々は AI を過小評価しているのだと思う
また、モデルが A/B テスト 中なのか、reasoning トークンを制限しているのかも分からず、信頼しにくいと感じる
完全に分離するにはこのオプションを無効にしなければならない
マザーボード画像では、RAM、PCIe スロット、DisplayPort の位置が全部間違っている。
画像リンク
なぜこんなものを宣伝画像として使ったのか疑問だ
Extended NYT Connections ベンチマーク では、GPT‑5.2 の高推論版が 69.9→77.9 に向上した。
ベンチマークリンク
中推論版・低推論版もすべて改善したが、Gemini 3 Pro と Grok 4.1 Fast Reasoning のほうが依然として高い
「自転車に乗るペリカン」テストが興味深い。
画像例
ARC‑AGI‑2 のスコア向上 が驚きだ。汎化能力が大きく改善されたように見える。
以前のモデルは過学習している感じだったが、今は 自己修正(self-correction) がうまくできている。
新しいデータセンターや大規模なモデル拡張なしにこれほど改善できるなら、未来が楽しみだ。
今ではベンチマークより ユーザー体験 のほうが重要だと感じる。
自分が ChatGPT を継続購読している理由は プロジェクト別のチャット整理機能 だ。
しかしどのプラットフォームにも共通して
といった基本的な使い勝手の問題を解決すべきだ
そのためベンチマークは一種の いたちごっこ になってしまう
r/Codex では不満の投稿が検閲されているようなので、ここで正直に言う。
速度は上がったが Opus 4.5 より遅く、5.1 比で 体感できる改善がほとんどない。
トークンコストが 40% も上がったのに、その価値を感じない。
Gemini 3 は無料で ChatGPT Pro 級だし、Claude Code の $100/月 も強力だ。
OpenAI は 存在論的危機 に直面しているように見える
「知識カットオフが 2025年8月」である点と価格引き上げは、新しい 事前学習(pretrain) モデルを意味しているようだ。
GPT‑5.1 は GPT‑4o と同じ事前学習を使っているとされていた