LogicKor: 韓国語言語モデルの多分野思考力ベンチマーク

(github.com/StableFluffy)

14 ポイント投稿者 libner 2024-03-29 | 3件のコメント | WhatsAppで共有

英語圏のベンチマークのうち、8つのカテゴリについて各10問で構成されたベンチマーク MT-Bench に着想を得て作成された、韓国語言語モデル向けのベンチマークとのことです。
制作者の方は、現在使われている韓国語言語モデルのベンチマークに限界を感じて作成したそうです。

以下は LogicKor ベンチマークについて、制作者の文章から引用した部分です。

韓国語モデルの思考力を判断できる6つのテーマを、以下のように分けてみました。  
推論 (Reasoning) - 論理的思考、問題解決  
数学 (Math) - 数学的概念、計算  
文章作成 (Writing) - 文同士のつながり、創造力  
コーディング (Coding) - コーディング知識、機能実装  
理解 (Understanding) - 文章理解、情報抽出、指示遂行  
文法 (Grammar) - ハングル正書法、標準発音法  
  
そして、各テーマに7つのマルチターン質問を作成しました。

3件のコメント

skymer 2024-03-29

リポジトリには特に説明がないのですが、引用された文章のリンクも添付していただけますか？

libner 2024-03-29

コミュニティサイトに投稿された文章なので、やや強い言葉選びになっているかもしれず……そのため、うっかりコメント欄が大変なことになるのではと懸念して、これまでは記事のリンクを付けていませんでした。
該当する記事のURLです: https://arca.live/b/alpaca/102052014

skymer 2024-03-29

ありがとうございます！アップステージがかなり疑わしいベンチマーク結果をばらまいているように感じていましたが、そう思ったのは私だけではなかったんですね……。ClovaX の体感性能はそこまで良くはなかったのですが、韓国モデルの中では1位なんですね。

LogicKor: 韓国語言語モデルの多分野思考力ベンチマーク

関連記事

3件のコメント