Vibechart

(vibechart.net)

1 ポイント投稿者 GN⁺ 2025-08-08 | まだコメントはありません。 | WhatsAppで共有

Vibechartは、ユーザーが事実性、審美的価値、実用性などの従来の基準ではなく、見たい形でチャートを作成できる可視化ツールです。
GPT-5発表時に使用されたチャートの解釈

GPT-5性能比較（Academic / SWE-bench）チャート

テスト項目: SWE-bench Verified（ソフトウェアエンジニアリングの問題解決精度）
Without thinking / With thinking: 『思考モード』（推論時間を長く使う方式）有無による性能差
- GPT-5: 思考なし 52.8%、思考モードで74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
ここでは、GPT-5は思考モードを使うとo3より性能が高くなる。

Deception evals across models（詐称評価）

モデルが『だます』行動をどの程度示すかを測定したテスト。
Coding deception: GPT-5（思考モード）50.0%、o3 47.4%
CharXiv missing image: GPT-5 9.0%、o3 86.7%
Production traffic: GPT-5 2.1%、o3 4.8%
項目別に見るとGPT-5は一部の領域では詐称率が高く、別の領域ではかなり低い

つまり、GPT-5は**『思考モード』でo3より優れている**一方、他の面（例：詐称の可能性）では悪化するか同程度である

まだコメントはありません。

まだコメントはありません。