ko-arena-hard-auto: LLMの韓国語性能を測定するためのベンチマーク

(github.com/qwopqwop200)

7 ポイント投稿者 qwopqwop200 2025-04-06 | まだコメントはありません。 | WhatsAppで共有

人間の選好は、LLMの性能を評価するうえで重要な指標の1つです。
しかし、人間の選好は測定が非常に難しく、高コストです。
LLM-as-a-Judgeを使ってこの問題を解決するものとして、MT-Bench、Arena-Hard-Auto などがあります。
しかし、これらの先行ベンチマークは英語向けです。

もちろん、韓国語にも KoMT-Bench、LogicKor、Horangi のような優れたベンチマークがあります。

しかし、既存のベンチマークは MT-Bench をベースとしており、MT-Bench は Arena-Hard-Auto と比べて、人間の選好との相関や識別力が低いことが知られています。

この問題を解決するため、ko-arena-hard-auto は Arena-Hard-Auto をベースとしており、
Arena-Hard-Auto の難しく厳しい500件の質問を韓国語に翻訳して使用しています。
翻訳には GPT-4o と o1 を使用し、手作業でレビューしました。

また、既存の Arena-Hard-Auto とは大きく3つの点で異なります。

コードミキシングとコードスイッチングを考慮した judge システムプロンプトを使用します。
judge モデルとして gemini-2.0-flash、gpt-4o-mini、deepseek-chat-v3-0324 を使用し、アンサンブルします。これにより自己選好バイアスを緩和し、既存の Arena-Hard-Auto より低コストで性能を測定できます。
baseline モデルには claude-3.7-sonnet を使用します。これは、LLM の性能が全体的に向上していることを踏まえ、強力な LLM である claude-3.7-sonnet を baseline に設定したためです。

ベンチマーク結果は次で確認できます: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

コード: https://github.com/qwopqwop200/ko-arena-hard-auto
データセット: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

ko-arena-hard-auto: LLMの韓国語性能を測定するためのベンチマーク

関連記事

まだコメントはありません。