VLMは韓国の公共機関文書をどれだけうまく読めるのか? KOLongDocベンチマークを公開
(github.com/Marker-Inc-Korea)🔥 韓国語Long-Document VLMベンチマーク、KOLongDocを公開しました!
最近では、ChatGPT、Claude、GeminiのようなマルチモーダルAIが公共・行政業務にも活用され始めていますが、肝心の「長い韓国語文書をどれだけ正しく理解できるのか?」を評価できるベンチマークはほとんどありませんでした。
既存の韓国語VLMベンチマークは、OCR、VQA、チャート理解、画像理解などに焦点を当てていましたが、
❌ 数十ページに及ぶ高解像度文書
❌ 複数ページをまたいで情報を結び付けるMulti-hop推論
❌ Long-context文書理解
を総合的に評価するには限界がありました。
そこで私たちは、KOLongDoc 📄 ベンチマークを作成し、オープンソースとして公開しました!
✅ 韓国の公共機関文書ベース
✅ Multi-page / Multi-hop QA
✅ 高解像度Long Document理解評価
✅ 全200問の評価項目を提供
KOLongDocは、国内外のVLMが実際の韓国語公共文書をどれだけ正確に理解し、推論できるかを評価するためのベンチマークです。
詳しい内容や活用方法が気になる方は、huggingfaceとgithubをご覧ください!
🤗 データセット:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 Github紹介記事:
https://github.com/Marker-Inc-Korea/KOLongDoc
*フィードバックとベンチマーク活用事例を歓迎します!
まだコメントはありません。