1 ポイント 投稿者 GN⁺ 2025-08-08 | まだコメントはありません。 | WhatsAppで共有
  • Vibechartは、ユーザーが事実性、審美的価値、実用性などの従来の基準ではなく、見たい形でチャートを作成できる可視化ツールです。
  • GPT-5発表時に使用されたチャートの解釈

GPT-5性能比較(Academic / SWE-bench)チャート

  • テスト項目: SWE-bench Verified(ソフトウェアエンジニアリングの問題解決精度)
  • Without thinking / With thinking: 『思考モード』(推論時間を長く使う方式)有無による性能差
    • GPT-5: 思考なし 52.8%、思考モードで74.9%
    • OpenAI o3: 69.1%
    • GPT-4o: 30.8%
  • ここでは、GPT-5は思考モードを使うとo3より性能が高くなる。

Deception evals across models(詐称評価)

  • モデルが『だます』行動をどの程度示すかを測定したテスト。
  • Coding deception: GPT-5(思考モード)50.0%、o3 47.4%
  • CharXiv missing image: GPT-5 9.0%、o3 86.7%
  • Production traffic: GPT-5 2.1%、o3 4.8%
  • 項目別に見るとGPT-5は一部の領域では詐称率が高く、別の領域ではかなり低い

つまり、GPT-5は**『思考モード』でo3より優れている**一方、他の面(例:詐称の可能性)では悪化するか同程度である

まだコメントはありません。

まだコメントはありません。