Vibechart
(vibechart.net)- Vibechartは、ユーザーが事実性、審美的価値、実用性などの従来の基準ではなく、見たい形でチャートを作成できる可視化ツールです。
- GPT-5発表時に使用されたチャートの解釈
GPT-5性能比較(Academic / SWE-bench)チャート
- テスト項目: SWE-bench Verified(ソフトウェアエンジニアリングの問題解決精度)
- Without thinking / With thinking: 『思考モード』(推論時間を長く使う方式)有無による性能差
- GPT-5: 思考なし 52.8%、思考モードで74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- ここでは、GPT-5は思考モードを使うとo3より性能が高くなる。
Deception evals across models(詐称評価)
- モデルが『だます』行動をどの程度示すかを測定したテスト。
- Coding deception: GPT-5(思考モード)50.0%、o3 47.4%
- CharXiv missing image: GPT-5 9.0%、o3 86.7%
- Production traffic: GPT-5 2.1%、o3 4.8%
- 項目別に見るとGPT-5は一部の領域では詐称率が高く、別の領域ではかなり低い
つまり、GPT-5は**『思考モード』でo3より優れている**一方、他の面(例:詐称の可能性)では悪化するか同程度である
まだコメントはありません。