LogicKor: 韓国語言語モデルの多分野思考力ベンチマーク
(github.com/StableFluffy)英語圏のベンチマークのうち、8つのカテゴリについて各10問で構成されたベンチマーク MT-Bench に着想を得て作成された、韓国語言語モデル向けのベンチマークとのことです。
制作者の方は、現在使われている韓国語言語モデルのベンチマークに限界を感じて作成したそうです。
以下は LogicKor ベンチマークについて、制作者の文章から引用した部分です。
韓国語モデルの思考力を判断できる6つのテーマを、以下のように分けてみました。
推論 (Reasoning) - 論理的思考、問題解決
数学 (Math) - 数学的概念、計算
文章作成 (Writing) - 文同士のつながり、創造力
コーディング (Coding) - コーディング知識、機能実装
理解 (Understanding) - 文章理解、情報抽出、指示遂行
文法 (Grammar) - ハングル正書法、標準発音法
そして、各テーマに7つのマルチターン質問を作成しました。
3件のコメント
リポジトリには特に説明がないのですが、引用された文章のリンクも添付していただけますか?
コミュニティサイトに投稿された文章なので、やや強い言葉選びになっているかもしれず……そのため、うっかりコメント欄が大変なことになるのではと懸念して、これまでは記事のリンクを付けていませんでした。
該当する記事のURLです: https://arca.live/b/alpaca/102052014
ありがとうございます! アップステージがかなり疑わしいベンチマーク結果をばらまいているように感じていましたが、そう思ったのは私だけではなかったんですね……。ClovaX の体感性能はそこまで良くはなかったのですが、韓国モデルの中では1位なんですね。