3 ポイント 投稿者 fortune 2025-12-12 | まだコメントはありません。 | WhatsAppで共有

[GPT-5.1 thinking -> GPT-5.2 thinking]

  • 投資銀行のスプレッドシート課題(社内): 59.1% → 68.4%

    • 3つの財務諸表/LBOスプレッドシート・モデリング課題
  • SWE-Bench Pro(公開): 50.8% → 55.6%

    • 4言語で実際のリポジトリ(repo)にパッチを適用
  • OpenAI MRCRv2(針8本、128k–256k): 29.6% → 77.0%

    • 非常に長い文書から情報を見つけて再現
  • ScreenSpot Pro(Python含む): 64.2% → 86.3%

    • UIスクリーンショットを理解して質問に回答
  • ARC-AGI-2(検証済み): 17.6% → 52.9%

    • 難しい抽象的推論パズル(検証済み)

まだコメントはありません。

まだコメントはありません。