大学修学能力試験・国語 LLMベンチマークリーダーボードを公開
(github.com/minsing-jin)- 2024年度大学修学能力試験・国語で o1-preview が1等級を達成(88点、1等級、上位4%)
- 現在は gpt-4o が1位、llama-3.1-405B-instruct が2位、Qwen-2.5-72B が3位
- まだ gpt o1-preview を除くと、3〜4等級にとどまっている
- 多くのモデルが韓国語の言語領域において Human performance に追いつくのは難しいことがわかる
- 毎年新しく実施される大学修学能力試験・国語という高品質データセットを通じて LLM の性能を評価
- 多様な分野の文章(人文、社会、科学、技術、芸術)、文学、話法と作文
- 実際の大学修学能力試験と同じく標準点数と等級体系を使用し、Human performance と LLM の performance を比較
- 自身の Hugging Face fine-tuning モデル、または気になるモデルのベンチマークを申請可能
大学修学能力試験・国語 LLM ベンチマークリーダーボードを公開しました!
このリーダーボードは、高品質な大学修学能力試験・国語の問題をもとに、LLM の韓国語言語能力を測定します。大学修学能力試験の標準点数と等級算出方式を適用し、モデルの性能を Human performance と比較できるリーダーボードを提供しており、それを通じて人々と情報を共有するために開設しました。
フィードバックはいつでも歓迎です!
i.e)
-
モデル評価のための GPU リソースが現在不足しています。もし GPU Donation が可能な方がいれば、本当にありがたいです!
-
API コストの問題で o1-preview はまだテストできておらず、o1 正式版が出しだいテストする予定です。
10件のコメント
大学修学能力試験のことを CSAT と呼ぶんですね。
国語の文章には図もありますが、なぜマルチモーダルにしなかったのか気になりますね?
リーダーボードに関心をお寄せいただき、ありがとうございます!
1つ目の理由はコストの問題でした。大学修学能力試験のデータを作成した当時は、昨年ちょうどGPT-4 Turboがリリースされた時期だったため、10年分の大学修学能力試験データを作る際に発生するコストが大きかったのです。
2つ目の理由は、大学修学能力試験の問題を解くために、図の情報を含むあらゆる手がかりを説明文に盛り込む必要があったことです。しかし、マルチモーダルを使う際には限界があり、そのため私たちが図に関する説明を直接作成することになりました。
興味深いですね! リーダーボードを見ながら、いくつか気になった点があるので、ご回答いただけると幸いです。
私の予想では、時間は80分よりかなり少なくて済み、易しい試験でも絶対得点は似たような点数を取るのではないかと思うのですが、実際にはどうなのか気になります。
大学修学能力試験の国語LLMベンチマークのリーダーボードに大きな関心をお寄せいただき、ありがとうございます! ご質問への回答としては、
例えばgpt-4oの場合、標準点の最高点が130点台だった2015〜2018年の易しい大学修学能力試験ではより良い点数を取り、等級も他の年度の難しい試験と比べて良い結果が出ていることを確認できました。
一方、meta llama 3.1 70Bモデルの場合は、2015〜2018年の大学修学能力試験で低い等級帯と標準点を取っていたのに対し、標準点の最高点が149点台を記録した2022年度の大学修学能力試験では3等級を取るケースもありました。
もしさらに気になる点や補足すべき説明があれば、いつでもお知らせください!
おお……モデルごとに少しずつ傾向に違いがあるんですね? 本当に人間みたいですね。詳しいご説明ありがとうございます!
1番については、
結局、選択肢5つの45問の四択問題なので、45サンプル(入力)に対して1トークン(1,2,3,4,5)を数百秒以内に解くことになりそうです。
AIに大学修学能力試験の国語の等級が付けられるなんて、不思議でもあり面白くもありますね。
大学修学能力試験の国語ベンチマークなのに、READMEが英語なのは皮肉ですね
韓国語基準では、これほど高品質なオープンソースのベンチマークデータはなかなかないですね(笑)