KoHalluLens: たわ言にも taxonomy がある?!

ironman0722 · 2025-11-03T21:55:54+09:00

KoHalluLens は、Facebook Research の HalluLens を韓国語に拡張したプロジェクトで、新たに生成される韓国語 test set を基に LLM の hallucination を体系的に評価した。このベンチマークは hallucination を「事実と異なることを述べること」(Factuality issue) と「知らないのに知っているふりをすること」(Hallucination) に区分する Extrinsic Hallucination（training 情報と不一致）と Intrinsic Hallucination（入力 context と不一致）という明確な分類基準を提示している。既存のベンチマークが data leakage のリスクを抱えていたのに対し、HalluLens の extrinsic hallucination は各 evaluation ごとに新しい test set を使用することで、より信頼性の高い評価を可能にした。 KoHalluLens はこれを韓国語評価セットに拡張し、API hosting を通じて別途コンピューティング資源がなくても自分のモデルの hallucination を直接評価できるようにした。

(github.com/NomaDamas)

1 ポイント投稿者 ironman0722 2025-11-03 | まだコメントはありません。 | WhatsAppで共有

KoHalluLens は、Facebook Research の HalluLens を韓国語に拡張したプロジェクトで、新たに生成される韓国語 test set を基に LLM の hallucination を体系的に評価した。
このベンチマークは hallucination を
- 「事実と異なることを述べること」(Factuality issue) と
- 「知らないのに知っているふりをすること」(Hallucination) に区分する
Extrinsic Hallucination（training 情報と不一致）と Intrinsic Hallucination（入力 context と不一致）という明確な分類基準を提示している。
既存のベンチマークが data leakage のリスクを抱えていたのに対し、HalluLens の extrinsic hallucination は各 evaluation ごとに新しい test set を使用することで、より信頼性の高い評価を可能にした。
KoHalluLens はこれを韓国語評価セットに拡張し、API hosting を通じて別途コンピューティング資源がなくても自分のモデルの hallucination を直接評価できるようにした。

KoHalluLens: たわ言にも taxonomy がある?!

関連記事

まだコメントはありません。