5 ポイント 投稿者 GN⁺ 2025-12-12 | 1件のコメント | WhatsAppで共有
  • GPT‑5.2は専門知識業務向けの最も強力なAIモデルシリーズで、コード作成・画像認識・複雑なプロジェクト遂行能力が向上
  • GDPval評価では44職種の知識業務タスクのうち70.9%で業界専門家を上回るか同等を記録し、速度は11倍、コストは1%未満
  • SWE‑Bench Pro 55.6%GPQA Diamond 92.4%、**ARC‑AGI‑1 86.2%**など主要ベンチマークで最高性能を達成
  • 長文脈理解(256kトークン)視覚情報処理、**ツール活用(98.7%)**などでGPT‑5.1比の大幅な改善を示す
  • ChatGPTとAPIで段階的に展開され、専門家向けの生産性と信頼性向上を目指す

GPT‑5.2の概要

  • GPT‑5.2は専門知識業務向けAIモデルシリーズで、スプレッドシート作成、プレゼンテーション制作、コード作成、画像認識、長文理解、ツール使用、複雑なプロジェクト遂行能力を強化
  • ChatGPT Enterpriseユーザーはすでに1日平均40〜60分、週あたり10時間以上を節約しており、GPT‑5.2はこの効率性をさらに拡張
  • ChatGPTではInstantThinkingProの3バージョンで提供され、APIでは開発者に即時提供

モデル性能

  • GPT‑5.2 ThinkingはGDPval評価で初めて専門家レベル以上の性能を達成
    • 44職種の知識業務タスクのうち70.9%で専門家を上回るか同等
    • 専門家比で11倍高速、コストは1%未満
  • 内部評価では投資銀行分析向けスプレッドシートモデリング課題のスコアがGPT‑5.1比で9.3%向上(59.1% → 68.4%)
  • SWE‑Bench Pro 55.6%、**SWE‑Bench Verified 80%**でソフトウェアエンジニアリング性能が向上
    • 実際のコードデバッグ、機能実装、リファクタリング、デプロイ作業をより安定して実行
  • フロントエンド開発と3D UI作業でもGPT‑5.1比で改善
  • 誤答率が30%減少し、ハルシネーションの頻度が低下

長文脈理解と視覚認識

  • OpenAI MRCRv2評価で長文書の統合理解性能における最高記録
    • 256kトークンまでほぼ100%の精度を達成
    • レポート、契約書、論文など長文書の分析に適する
  • /compactエンドポイントと互換性があり、コンテキスト拡張型ワークフローをサポート
  • 視覚認識性能の向上により、チャート、ダッシュボード、UIスクリーンショットなどで誤り率が半減レベルまで低下
    • 画像内構成要素の空間配置の理解能力を強化

ツール活用と複合タスク

  • **Tau2‑bench Telecom 98.7%**でツール使用能力の最高記録
  • 複数段階の顧客支援、データ収集、分析、結果生成などエンドツーエンドのワークフロー遂行能力を強化
    • 例: 航空便の遅延・乗り継ぎ・補償請求など複合的なカスタマーサービス手順を完全に処理

科学・数学・推論能力

  • GPQA Diamond 92.4%FrontierMath Tier 1–3 40.3%ARC‑AGI‑1 86.2%、**ARC‑AGI‑2 52.9%**で主要学術ベンチマークの最高記録
  • GPT‑5.2 ProはARC‑AGI‑1で90%を突破し、費用対効果は390倍向上
  • GPT‑5.2 ProとThinkingは科学研究の加速に活用可能
    • 実際の研究で統計学の理論証明を提案し、検証を受けた事例を提示

ChatGPT内での利用体験

  • GPT‑5.2 Instant: 高速応答と明確な説明を提供し、日常的な学習・作業向け
  • GPT‑5.2 Thinking: コード作成、長文要約、数学・論理問題の解決、計画立案など複雑な作業に適する
  • GPT‑5.2 Pro: 高難度の質問に高い信頼性の回答を提供し、誤答率を低減

安全性強化

  • GPT‑5.2はGPT‑5のSafe Completion研究を基盤に、自殺・メンタルヘルス・感情的依存に関する対話応答を改善
    • GPT‑5.1比で不適切応答の割合が減少
  • 年齢予測モデルを導入し、18歳未満ユーザーに対するセンシティブコンテンツへのアクセスを制限
  • ChatGPTの過剰拒否(over‑refusal)問題の改善作業を進行中

価格と提供方式

  • ChatGPT有料プラン(Plus、Pro、Business、Enterprise)から段階的に展開
  • APIではgpt‑5.2gpt‑5.2‑chat‑latestgpt‑5.2‑proとして提供
  • 価格: 入力100万トークンあたり**$1.75**、出力100万トークンあたり**$14**、キャッシュ入力は90%割引
    • GPT‑5.1より単価は高いが、トークン効率の向上により総コストを削減
  • GPT‑5.1は3か月間維持した後、段階的に終了予定
  • Codex最適化バージョンは今後公開予定

技術パートナーシップ

  • NVIDIAおよびMicrosoftと協力してGPT‑5.2を開発
    • AzureデータセンターとH100、H200、GB200‑NVL72 GPUインフラを活用
    • 大規模学習の効率とモデル知能の向上を支援

主要ベンチマーク要約

  • GDPval: 70.9%(GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k): 77.0%
  • CharXiv Reasoning (w/ Python): 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified): 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2は知能、信頼性、生産性の面で前世代モデルを大きく上回り、専門家レベルの実務支援AIとして位置づけられる。

1件のコメント

 
GN⁺ 2025-12-12
Hacker Newsの反応
  • この数か月、ChatGPT を有料で使っていて、コーディング、ニュース、株式分析、日常の問題解決など、ほぼあらゆる用途に使ってきた。
    しかし Gemini 3 がリリースされて使ってみると、あらゆるユースケースでずっと良い結果を出した。
    特に ウェブ検索統合 が必要な最新情報の探索で強みを見せた。OCR も素晴らしく、自分の悪筆もちゃんと認識する。
    ただしアプリのバグが多く、セッションが頻繁に切れ、写真アップロードのエラーもある。
    一番不満なのは、すべてのリンクが Google 検索を経由するため、直接サイトに行くには修正しなければならないこと。
    全体としては、ChatGPT は 検索統合力 で後れを取っていて、追いつくのは難しそうだという結論になった

    • 「ポリシー上の問題があるだけ」という表現は弱すぎる。1日に何度も スレッド全体が消えるバグ のせいで罵りたくなるレベルだ。
      中断しただけでデータが消えるほどで、典型的な Google流の未完成製品 という感じだ。
      音声モードのアイデアは良いが、頻繁に壊れ、勝手に質問を繰り返す
    • 自分は正反対の経験をした。ChatGPT は何度も検索して結果を分析し、その後さらに追加検索まで行う一方、Gemini はほとんど検索しない。
      ChatGPT は PDF やスクリーンショットを開いて OCR 入力 として活用するが、Gemini は無視する
    • リンクが Google 検索を経由するのは、内部で マルウェア・フィッシング検査 をしているからだ。
      ただ今はブラウザが自前で処理するので、わざわざ Google にクリック情報を送る必要はない。
      直接リンクに直しても問題ない
    • 自分の場合、Gemini 3 Pro のほうがむしろ 幻覚(hallucination) がひどかった。存在しない出典を作り出すことすらある。
      Opus 4.5 は品質がより良いが、利用制限が厳しいので複数のサブスクを併用するか悩んでいる
    • Gemini の 音声認識品質 がひどすぎて使えなかった。
      OCR より音声機能を多く使う立場なので致命的だ。
      「検索統合が強み」という主張も理解できない。最新情報の検索で ChatGPT が実際により悪かった例が気になる
  • ブログ告知にはないが、実際の コンテキストウィンドウのサイズ は40万トークンだ。
    公式ドキュメント に明記されている。
    コンテキスト全体の活用能力も改善されたとのことで期待している。
    Rust/CUDA プロジェクトで Codex 5.1 を使っていて Gemini 3 に移ったが、最初はバグをよく見つけてくれて感心したものの、すぐに 命令無視、出力崩れ、不透明な推論過程 のせいで発狂しそうになった。
    Codex に戻ると安定していてフィードバックもよく反映する。いまや GPT‑5.2 xhigh モードまで出て、まるでクリスマスプレゼントをもらった気分だ

    • 40万トークンはすでに GPT‑5、5.1、5‑mini などにもあった。ただ 長文脈処理性能 が改善されたなら大きな意味がある
    • 自分は xhigh モードのほうが high よりむしろ結果が悪く、PEBKAC(ユーザー側のミス) なのかと思った。比較したことがあるか気になる
    • 最近のコメントを見ると、本当のレビューなのか スポンサー宣伝 なのか区別がつかない。
      昔のように率直に問題と解決策を議論していたフォーラム文化が恋しい
  • 多くの開発者が、1つのセッションで料理、贈り物、コーディングなど あらゆる話題 を混ぜて使い、妙な返答を受け取るのを見てきた。
    LLM は会話全体の文脈を継続して送るので、話題ごとに新しいチャットを始めるべきだ。
    そうしないと「妻はグローバル変数をどう思うか」みたいな奇妙な答えを聞くことになる

    • たまにこう思う。LLM の内部動作原理 を知らない人には、これらのツールはどれほど奇妙に感じられるのだろうか。
      Cursor や ChatGPT のようなアプリは、たぶん理解しづらいと思う
    • 自分も fast.ai の講座を受け、VLLM などいくつものモデルを直接触ってみた経験がとても役に立った。
      コンテキストウィンドウという概念 を知らなければ、AI がただ愚かに見えることもある。こうした理由で、人々は AI を過小評価しているのだと思う
    • どんな文脈を残すべきかも明確ではない。似たスタイルのテキストを入れたら、かえって性能が落ちた。
      また、モデルが A/B テスト 中なのか、reasoning トークンを制限しているのかも分からず、信頼しにくいと感じる
    • ChatGPT の「Reference chat history」オプションがデフォルトで有効になっているため、新しい会話を作っても以前の内容が混ざる。
      完全に分離するにはこのオプションを無効にしなければならない
    • LLM と「恋愛関係」に陥った人たちについてのポッドキャストを聞いたが、単にコンテキストをリセットすれば完全に見知らぬ存在に戻ることを分かっていないようだった
  • マザーボード画像では、RAM、PCIe スロット、DisplayPort の位置が全部間違っている。
    画像リンク
    なぜこんなものを宣伝画像として使ったのか疑問だ

    • GPT‑5.2 の ビジョン性能は向上したが完璧ではない ことを示す意図だった。完璧な結果だけを選ぶとかえって誤解を招きかねない
    • USB Type‑A ポートも、2個ずつのペアで積まれているのではなく4個ある
    • 記事本文にも「両モデルとも誤りはあるが、GPT‑5.2 のほうがより良い理解を示した」と明記されている
    • 最近の AI コミュニティ文化 は、結果の検証なしに生成物ばかり量産する傾向があり、こうしたミスが起こるのだと思う
    • それでも画像解像度が2003年の折りたたみ携帯レベルなので、誤りが出てもおかしくない
  • Extended NYT Connections ベンチマーク では、GPT‑5.2 の高推論版が 69.9→77.9 に向上した。
    ベンチマークリンク
    中推論版・低推論版もすべて改善したが、Gemini 3 Pro と Grok 4.1 Fast Reasoning のほうが依然として高い

    • Gemini 3 Pro Preview が同じテストで 96.8% というのは印象的だ
    • 別の人が Clues by Sam パズルでテストしたところ、GPT‑5 Pro がすでに1位を取っていた
    • なぜ Grok 4.1 reasoning の結果は載っていないのか気になる
  • 自転車に乗るペリカン」テストが興味深い。
    画像例

    • ばらつきが大きすぎて、テストとしての価値は低い。10回回したが半分は完璧な結果だった
    • おそらく 5.1 版が単調すぎるというフィードバックを反映したのだろう。POV‑Ray 版でも同じ経験があった
    • どんどん 空気力学的に進化 していくのを見ると、AI が賢くなっている感じがする
    • 「これが自分が信頼する唯一のベンチマークだ」という冗談が出るほどだ
    • ただ、同じベンチマークをあまり長く使い続けるのは望ましくない
  • ARC‑AGI‑2 のスコア向上 が驚きだ。汎化能力が大きく改善されたように見える。
    以前のモデルは過学習している感じだったが、今は 自己修正(self-correction) がうまくできている。
    新しいデータセンターや大規模なモデル拡張なしにこれほど改善できるなら、未来が楽しみだ。

    • 自分も ARC‑AGI‑2 の結果に注目した。本当に大きな飛躍だ
  • 今ではベンチマークより ユーザー体験 のほうが重要だと感じる。
    自分が ChatGPT を継続購読している理由は プロジェクト別のチャット整理機能 だ。
    しかしどのプラットフォームにも共通して

    • 自信満々に 嘘をつく
    • プロンプトにきちんと従わない
    • 不確実性を表現しない
    • 不要な称賛と冗長な回答をやめない
    • 出典引用に一貫性がない
    • 原文を見たのか要約を見たのかを明確にしない
      といった基本的な使い勝手の問題を解決すべきだ
    • 客観的指標を離れると、測定の妥当性を説得するのが難しくなるが、測定可能な指標は簡単に操作 できる。
      そのためベンチマークは一種の いたちごっこ になってしまう
  • r/Codex では不満の投稿が検閲されているようなので、ここで正直に言う。
    速度は上がったが Opus 4.5 より遅く、5.1 比で 体感できる改善がほとんどない
    トークンコストが 40% も上がったのに、その価値を感じない。
    Gemini 3 は無料で ChatGPT Pro 級だし、Claude Code の $100/月 も強力だ。
    OpenAI は 存在論的危機 に直面しているように見える

    • Gemini 2.5 から 3 になった時も大きな改善はなかった。全体として 実質的な進歩 が停滞している感じがする
  • 知識カットオフが 2025年8月」である点と価格引き上げは、新しい 事前学習(pretrain) モデルを意味しているようだ。
    GPT‑5.1 は GPT‑4o と同じ事前学習を使っているとされていた

    • 新しいプリトレインはコストが莫大なので、単なる 0.1 のバージョン上昇で終わることはないだろう
    • あるいは 5.1 のほうがもっと古いチェックポイントだったか、量子化(quantization) がより強かった可能性もある
    • あるいは単に同じモデルに 質の低いデータ(slop) をもう一度食わせただけかもしれない