- KoHalluLens は、Facebook Research の HalluLens を韓国語に拡張したプロジェクトで、新たに生成される韓国語 test set を基に LLM の hallucination を体系的に評価した。
- このベンチマークは hallucination を
- 「事実と異なることを述べること」(Factuality issue) と
- 「知らないのに知っているふりをすること」(Hallucination) に区分する
- Extrinsic Hallucination(training 情報と不一致)と Intrinsic Hallucination(入力 context と不一致)という明確な分類基準を提示している。
- 既存のベンチマークが data leakage のリスクを抱えていたのに対し、HalluLens の extrinsic hallucination は各 evaluation ごとに新しい test set を使用することで、より信頼性の高い評価を可能にした。
- KoHalluLens はこれを韓国語評価セットに拡張し、API hosting を通じて別途コンピューティング資源がなくても自分のモデルの hallucination を直接評価できるようにした。
まだコメントはありません。