大学修学能力試験・国語 LLMベンチマークリーダーボードを公開

ironman0722 · 2024-10-18T02:43:19+09:00

2024年度大学修学能力試験・国語で o1-preview が1等級を達成（88点、1等級、上位4%）現在は gpt-4o が1位、llama-3.1-405B-instruct が2位、Qwen-2.5-72B が3位まだ gpt o1-preview を除くと、3〜4等級にとどまっている多くのモデルが韓国語の言語領域において Human performance に追いつくのは難しいことがわかる毎年新しく実施される大学修学能力試験・国語という高品質データセットを通じて LLM の性能を評価多様な分野の文章（人文、社会、科学、技術、芸術）、文学、話法と作文実際の大学修学能力試験と同じく標準点数と等級体系を使用し、Human performance と LLM の performance を比較自身の Hugging Face fine-tuning モデル、または気になるモデルのベンチマークを申請可能大学修学能力試験・国語 LLM ベンチマークリーダーボードを公開しました！このリーダーボードは、高品質な大学修学能力試験・国語の問題をもとに、LLM の韓国語言語能力を測定します。大学修学能力試験の標準点数と等級算出方式を適用し、モデルの性能を Human performance と比較できるリーダーボードを提供しており、それを通じて人々と情報を共有するために開設しました。フィードバックはいつでも歓迎です！ i.e) モデル評価のための GPU リソースが現在不足しています。もし GPU Donation が可能な方がいれば、本当にありがたいです！ API コストの問題で o1-preview はまだテストできておらず、o1 正式版が出しだいテストする予定です。

(github.com/minsing-jin)

25 ポイント投稿者 ironman0722 2024-10-18 | 10件のコメント | WhatsAppで共有

2024年度大学修学能力試験・国語で o1-preview が1等級を達成（88点、1等級、上位4%）
現在は gpt-4o が1位、llama-3.1-405B-instruct が2位、Qwen-2.5-72B が3位
- まだ gpt o1-preview を除くと、3〜4等級にとどまっている
- 多くのモデルが韓国語の言語領域において Human performance に追いつくのは難しいことがわかる
毎年新しく実施される大学修学能力試験・国語という高品質データセットを通じて LLM の性能を評価
- 多様な分野の文章（人文、社会、科学、技術、芸術）、文学、話法と作文
実際の大学修学能力試験と同じく標準点数と等級体系を使用し、Human performance と LLM の performance を比較
自身の Hugging Face fine-tuning モデル、または気になるモデルのベンチマークを申請可能

大学修学能力試験・国語 LLM ベンチマークリーダーボードを公開しました！

このリーダーボードは、高品質な大学修学能力試験・国語の問題をもとに、LLM の韓国語言語能力を測定します。大学修学能力試験の標準点数と等級算出方式を適用し、モデルの性能を Human performance と比較できるリーダーボードを提供しており、それを通じて人々と情報を共有するために開設しました。

フィードバックはいつでも歓迎です！

i.e)

モデル評価のための GPU リソースが現在不足しています。もし GPU Donation が可能な方がいれば、本当にありがたいです！
API コストの問題で o1-preview はまだテストできておらず、o1 正式版が出しだいテストする予定です。

10件のコメント

roxie 2024-10-24

大学修学能力試験のことを CSAT と呼ぶんですね。

doolayer 2024-10-21

国語の文章には図もありますが、なぜマルチモーダルにしなかったのか気になりますね？

ironman0722 2024-10-21

リーダーボードに関心をお寄せいただき、ありがとうございます！

1つ目の理由はコストの問題でした。大学修学能力試験のデータを作成した当時は、昨年ちょうどGPT-4 Turboがリリースされた時期だったため、10年分の大学修学能力試験データを作る際に発生するコストが大きかったのです。

2つ目の理由は、大学修学能力試験の問題を解くために、図の情報を含むあらゆる手がかりを説明文に盛り込む必要があったことです。しかし、マルチモーダルを使う際には限界があり、そのため私たちが図に関する説明を直接作成することになりました。

ilotoki0804 2024-10-18

興味深いですね！リーダーボードを見ながら、いくつか気になった点があるので、ご回答いただけると幸いです。

LLMを使う場合、全問題を解くのにかかる時間はどのくらいでしょうか？大学修学能力試験の国語では80分の制限時間がありますが（OMRのマーク時間を含む）、LLMが全問題を解くのにどの程度時間がかかるのか気になります。
易しい試験でも、同じ等級帯になるのでしょうか？極端な例では、今回の9月模試では1等級カットが100点になるほど易しかったのですが、その模試を受けても、ほかの模試を解くときと似たような等級を取れるのか気になります。

私の予想では、時間は80分よりかなり少なくて済み、易しい試験でも絶対得点は似たような点数を取るのではないかと思うのですが、実際にはどうなのか気になります。

ironman0722 2024-10-21

大学修学能力試験の国語LLMベンチマークのリーダーボードに大きな関心をお寄せいただき、ありがとうございます！ご質問への回答としては、

短い場合で10分、長い場合で25分ほどかかりました。
結果だけを見ると、試験の難易度がLLMの問題解答にある程度影響しているモデルもあれば、そうでないモデルもあり、一般化するのは難しいように思います。

例えばgpt-4oの場合、標準点の最高点が130点台だった2015〜2018年の易しい大学修学能力試験ではより良い点数を取り、等級も他の年度の難しい試験と比べて良い結果が出ていることを確認できました。
一方、meta llama 3.1 70Bモデルの場合は、2015〜2018年の大学修学能力試験で低い等級帯と標準点を取っていたのに対し、標準点の最高点が149点台を記録した2022年度の大学修学能力試験では3等級を取るケースもありました。

もしさらに気になる点や補足すべき説明があれば、いつでもお知らせください！

ilotoki0804 2024-10-21

おお……モデルごとに少しずつ傾向に違いがあるんですね？本当に人間みたいですね。詳しいご説明ありがとうございます！

doolayer 2024-10-21

1番については、
結局、選択肢5つの45問の四択問題なので、45サンプル（入力）に対して1トークン（1,2,3,4,5）を数百秒以内に解くことになりそうです。

savvykang 2024-10-18

AIに大学修学能力試験の国語の等級が付けられるなんて、不思議でもあり面白くもありますね。

mammal 2024-10-18

大学修学能力試験の国語ベンチマークなのに、READMEが英語なのは皮肉ですね

ng0301 2024-10-18

韓国語基準では、これほど高品質なオープンソースのベンチマークデータはなかなかないですね（笑）

大学修学能力試験・国語 LLMベンチマークリーダーボードを公開

関連記事

10件のコメント