- 2025年度大学修学能力試験の国語で、O1-Previewが97点という驚異的な成績を記録
- ベンチマーク過程についてさらに知りたい方のために、実験過程と追加内容を整理したブログも書きましたので、参考にしてください!
- 2025年大学修学能力試験国語 LLM ベンチマークにおける gpt モデルの結果
🥇 1st. o1-Preview: 97点(1等級)
🥈 2nd. o1-mini: 78点(4等級)
🥉 3rd. gpt-4o: 75点(4等級): gpt-4o
4th. gpt-4o-mini: 59点(5等級)
5th. gpt-3.5-turbo: 16点(8等級)
- 大学修学能力試験 LLM ベンチマーク・リーダーボードプロジェクトの目的
- Human performance と LLM performance を比較できるベンチマーク情報の共有
- 韓国語の言語能力を評価する、韓国で最も権威ある KICE 評価院の厳選ベンチマークデータセット
- 毎年更新される新しい大学修学能力試験国語ベンチマークデータセットによるデータリーケージの防止
- 特定の国家や企業に依存しないオープンソース LLM を韓国の大学修学能力試験で1等級に到達させること
1件のコメント
ブログのリンクが切れていましたね!コメントにもう一度載せます!
https://velog.io/@minsing-jin/…