o1-preview、2025年大学修学能力試験の国語で97点を達成

ironman0722 · 2024-11-19T18:19:43+09:00

2025年度大学修学能力試験の国語で、O1-Previewが97点という驚異的な成績を記録 8番（3点）非文学文の設問で誤答を記録論理の誤りにより、不正解である3番を選択ベンチマーク過程についてさらに知りたい方のために、実験過程と追加内容を整理したブログも書きましたので、参考にしてください！ 2025年大学修学能力試験国語 LLM ベンチマークにおける gpt モデルの結果 🥇 1st. o1-Preview: 97点（1等級） 🥈 2nd. o1-mini: 78点（4等級） 🥉 3rd. gpt-4o: 75点（4等級）: gpt-4o 4th. gpt-4o-mini: 59点（5等級） 5th. gpt-3.5-turbo: 16点（8等級）大学修学能力試験 LLM ベンチマーク・リーダーボードプロジェクトの目的 Human performance と LLM performance を比較できるベンチマーク情報の共有韓国語の言語能力を評価する、韓国で最も権威ある KICE 評価院の厳選ベンチマークデータセット毎年更新される新しい大学修学能力試験国語ベンチマークデータセットによるデータリーケージの防止特定の国家や企業に依存しないオープンソース LLM を韓国の大学修学能力試験で1等級に到達させること本プロジェクトは Markr.AI が進めたプロジェクトです。本ベンチマークは AutoRAG オープンソースを活用して実施しました！リーダーボードに、2023年大学修学能力試験国語をベンチマークできるチュートリアルを更新しました！気になる点があれば、いつでもご連絡ください！

(velog.io)

5 ポイント投稿者 ironman0722 2024-11-19 | 1件のコメント | WhatsAppで共有

2025年度大学修学能力試験の国語で、O1-Previewが97点という驚異的な成績を記録
- 8番（3点）非文学文の設問で誤答を記録
  - 論理の誤りにより、不正解である3番を選択
ベンチマーク過程についてさらに知りたい方のために、実験過程と追加内容を整理したブログも書きましたので、参考にしてください！
2025年大学修学能力試験国語 LLM ベンチマークにおける gpt モデルの結果
🥇 1st. o1-Preview: 97点（1等級）
🥈 2nd. o1-mini: 78点（4等級）
🥉 3rd. gpt-4o: 75点（4等級）: gpt-4o
4th. gpt-4o-mini: 59点（5等級）
5th. gpt-3.5-turbo: 16点（8等級）
大学修学能力試験 LLM ベンチマーク・リーダーボードプロジェクトの目的
1. Human performance と LLM performance を比較できるベンチマーク情報の共有
2. 韓国語の言語能力を評価する、韓国で最も権威ある KICE 評価院の厳選ベンチマークデータセット
3. 毎年更新される新しい大学修学能力試験国語ベンチマークデータセットによるデータリーケージの防止
4. 特定の国家や企業に依存しないオープンソース LLM を韓国の大学修学能力試験で1等級に到達させること

本プロジェクトは Markr.AI が進めたプロジェクトです。
本ベンチマークは AutoRAG オープンソースを活用して実施しました！
リーダーボードに、2023年大学修学能力試験国語をベンチマークできるチュートリアルを更新しました！
気になる点があれば、いつでもご連絡ください！

1件のコメント

ironman0722 2024-11-22

ブログのリンクが切れていましたね！コメントにもう一度載せます！
https://velog.io/@minsing-jin/…

o1-preview、2025年大学修学能力試験の国語で97点を達成

関連記事

1件のコメント