韓国語能力を評価するVLMベンチマーク3種を公開(KO-VQA、KO-VDC、KO-OCRAG)
(github.com/Marker-Inc-Korea)最近VLMへの関心が高まる中、さまざまな領域でVLMの韓国語能力を確認できるベンチマークが公開された。
このプロジェクトでは、合計3つのベンチマークを紹介している。
- KO-VQA: 多様なドメインの韓国語文書理解能力および文書ベースの回答推論能力を評価
- KO-VDC: 韓国語の可視化図表資料の理解能力および図表ベースの説明文生成・理解能力を評価
- KO-OCRAG: 複雑な構造の韓国語文書OCR能力および文書に登場するVisual Context parsing能力を評価
すべてのデータセットの評価はLLM-as-a-Judgeに依存せず、完全な選択式で行われる。
1枚のA100 40GBまたは80GBの範囲で動かせるさまざまなオープンソースVLMと、closed-sourceであるgeminiを比較している。
- geminiがすべてのベンチマークで圧倒的な性能を示した。
- オープンソースではQwen3が際立つ性能を見せた。
- NCSoftのVARCO-VISION-2.0モデルも悪くない性能を示している。
- まとめると、closed-source VLMとopen-source VLMの間には、韓国語性能において依然としてかなり大きな差があることが確認できる。
- また、geminiがほぼ完璧なスコアを示していて驚かされる。
各データセットの詳細な説明は、それぞれのREADMEを参照。
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐GitHub star⭐⭐や関心、広報はオープンソースプロジェクト制作の大きな力になります!!
*このプロジェクトはmarkrAIの支援を受けて進められた。
まだコメントはありません。