LLMの不確実性検知技術
(thariq.io)LLMの不確実性検知
この記事は、XJDRの新しいプロジェクトであるEntropixで開発された新しい推論手法を説明する。Entropixは、不確実な瞬間にサンプリングをより賢く行うことで、モデルの推論を改善しようとしている。しかし、まだ大規模な評価が行われていないため、実際にどれほど役立つかは不明である。
不確実性の概要
- サンプリングは、LLMが選択する可能性のあるトークンの分布(logits)からトークンを選ぶ過程である。
- モデルの予測に対する確信度は、この分布から分かる。
- Entropixは適応的サンプリングを用いて、モデルが不確実なときによりよい判断を下せるようにする。
不確実性の意味と重要性
- logitsの不確実性にはさまざまな原因があり、すべてが悪いわけではない。
- 原因としては、同義語や等価なトークン、分岐経路、AIが確信を持てない場合などがある。
- Entropixは、不確実性の程度に応じて異なる方法で次のトークンを選ぶべきだと提案している。
エントロピーとバレントロピー
- Entropixは、不確実性を測る2つの指標であるエントロピーとバレントロピーを使用する。
- エントロピーは、予測されたlogitsが互いにどれほど異なるかを測定する。
- バレントロピーは不確実性の「形」を表し、高いバレントロピーは一部の値が他の値と大きく異なることを示す。
数学的説明
- サプライザルは、事象の予測不可能性を測る概念である。
- エントロピーは、すべての可能な結果に対するサプライザルの期待値である。
- バレントロピーは、サプライザルの分散として計算される。
エントロピーとバレントロピーに基づく適応的サンプリング
低エントロピー、低バレントロピー
- モデルが第1の選択肢だけでなく、他の選択肢についても確信を持っている理想的なケースである。
- 標準的なargmaxサンプリングを用いて、最も確率の高いトークンを選択する。
低エントロピー、高バレントロピー
- モデルがいくつかの選択肢を非常に高く予測しているケースである。
- 新しい出力の分岐を示している可能性があり、分岐は複数の方法で実装できる。
高エントロピー、低バレントロピー
- モデルが認識できないものを見ているか、すべての選択肢が互いに交換可能である可能性がある。
- 「思考」トークンを使って、モデルがより多くの計算時間を使うよう促す。
高エントロピー、高バレントロピー
- モデルに明確な選好はないが、一部の出力にはより強い確信を持っているケースである。
- ランダムに選択したり、分岐したり、思考トークンを挿入したりできる。
分岐と思考トークン
- 分岐予測は、いくつかのlogitsをたどって別のトークンへ続くかを見る方法である。
- 思考トークンは、不確実な状態でより多くの計算を行う方法である。
注意エントロピー
- Entropixは、温度を調整するために注意エントロピーを使用する。
- 注意エントロピーと注意整合度は、サンプリングに対する追加のシグナルを提供できる。
これは重要か?
- Entropixの洞察は理解しやすく、まったく新しいものというわけではない。
- 評価が大きな利点を示さなかったとしても、このような推論手法は実験しやすい方向性である。
GN⁺のまとめ
- Entropixは、LLMの不確実性に対処するための新しいアプローチを提案している。
- エントロピーとバレントロピーを用いてモデルの確信度を測定し、適応的サンプリングによってよりよい判断を下せる可能性がある。
- これらの技術は、大規模な予算がなくてもオープンソースハッカーがモデルの推論能力を改善できる可能性を提供する。
- 類似機能を持つプロジェクトとしては、Hugging FaceのTransformersが推奨される。
1件のコメント
Hacker Newsの意見
Charles Babbageは、誤った入力から正しい出力が得られるのかという問いに戸惑いを感じていた
コンシューマー向けハードウェアを使ったサンプリングベースの技術は、SOTAモデルを改善できる珍しい機会である。しかし、これは長続きせず、最終的には訓練可能なサンプラーが必要になるだろう
LLMの多くの問題は、意味の漏洩や無関係な情報によって引き起こされる。注意機構には改善の余地があるかもしれない
現代のGPTは、トークン語彙に対する大規模な分類器からロジットを出力する。これは空間内に存在し、異常な凸性の性質を持つ多様体を計算できる
高エントロピーな状況で、モデルが不確実性を検知し、ユーザーに警告できる機能が必要である
LLMの不確実性を判断する技術が存在するのか確信が持てない。最近の研究では、意味エントロピーを使ってLLMが推測しているかどうかを統計的に定量化している
モデルが不確実性を許容しない場合の出力を試した人がいるのか気になる。すべてのトークンが閾値以上の確実性を持つまで、サンプラーが巻き戻る方式である
LLMを信頼して最小限の監督で作業を行わせることには疑問がある。すべてが「幻覚」や推測かもしれない
LLMの問題は単なる「不確実性」だけではなく、多様な次元がある。質問の意味の不足、情報不足、専門家の合意の不在など、さまざまな理由がある
言語モデル向けには無数のサンプリング戦略が存在する。特定のサンプリング戦略が標準的なtop-kやtop-pサンプリングより優れていることを、実証的に証明するのは難しい