LLMにおける永続的なハルシネーション現象、私たちが受け入れるべき現実

(arxiv.org)

1 ポイント投稿者 GN⁺ 2024-09-16 | 1件のコメント | WhatsAppで共有

LLMのハルシネーションは一部の状況で起きる単なるミスではなく、システムの本質的特性であり、活用範囲が広がるほどこの限界を前提にした判断が必要になる
ハルシネーションは数学的・論理的構造に由来するため、アーキテクチャ、データセット、ファクトチェックの改善だけで完全に除去することは難しい
分析は計算理論とゲーデルの第一不完全性定理に基づき、Halting Problem・Emptiness Problem・Acceptance Problemのような決定不能問題を参照している
学習データの構成、事実検索、意図分類、テキスト生成など各段階には、ハルシネーションを生み出すゼロではない確率が残っている
「Structural Hallucinations」は、ハルシネーションをLLM内部に内在する構造的性質とみなし、完全な緩和が可能だという通念に異議を唱える

LLMハルシネーションの構造的限界

LLMがさまざまなドメインで広く使われるほど、モデルの内在的限界を批判的に検討する必要がある
ハルシネーションは偶発的なエラーではなく、LLMシステムの避けがたい特徴に近い
この観点では、より優れたモデル、より大規模なデータセット、外部検証ツールだけではハルシネーションを除去できないと考える

なぜ完全に除去しにくいのか

ハルシネーションはLLMの数学的・論理的構造から発生する
アーキテクチャの改善、データセットの改善、ファクトチェック機構だけでは、ハルシネーションを完全になくすことは難しい
分析では計算理論とゲーデルの第一不完全性定理を用いる
- 関連する決定不能問題として、Halting Problem、Emptiness Problem、Acceptance Problemが示される

処理段階ごとに残るハルシネーションの可能性

LLMプロセスのすべての段階には、ハルシネーションを生成するゼロではない確率がある
- 学習データの構成
- 事実検索
- 意図分類
- テキスト生成
特定の段階を補強しても、システム全体からハルシネーションの可能性が消えるわけではない

Structural Hallucinations

「Structural Hallucinations」は、ハルシネーションをLLMシステムの内在的性質とみなす概念である
ハルシネーションの数学的必然性を強調し、ハルシネーションは完全に緩和できるという従来の認識と衝突する
実務的には、LLMハルシネーションは完全排除の対象ではなく、常に存在する制約として扱うべきである

1件のコメント

GN⁺ 2024-09-16

Hacker News の意見

「確率的なテキスト生成の途中で偽情報を作り出すこと」という概念に hallucination という名前を付けなければ、誤解は避けられたのではないかと思う
この言葉は、モデルの通常動作の中で何かが間違っているかのように聞こえるが、実際にはモデルの通常動作とはもっともらしいテキストを作ること
「幻覚」はモデルの故障ではなく、出力テキストに対して私たちが下す価値判断であり、そのテキストが目的に合っていないという意味にすぎない
この見方では、幻覚の緩和とアライメントは実質的に同じ問題なので、片方だけを個別に解決するのは難しい
- その通り。事後的な価値判断であって、精密な用語ではない
  「幻覚」という言葉の意味をそのまま取れば、モデルは常に幻覚していることになり、たまたま客観的に真である内容を作ると、私たちがそれを幻覚と呼ばないだけ
  論文がこの定義の問題を有用に整理したのなら、よい貢献になり得る
- この用語が最初にどう使われたのかは知らないが、不正確なところがむしろ LLM の能力を誇張したい側に有利に見える
  問題を技術そのものの本質的な限界ではなく、一時的な「バグ」のように見せ、投資家や購入者に実際の性質を見えにくくしてしまう
- 現象を単に makin' stuff up と呼んでいたら、雰囲気はかなり違っていただろう
  人間もいつも作り話をするし、AI よりはるかに突拍子もないこともでっち上げるのだから、人間が本当に知的なのかも問うべきだ /完全な冗談ではない
- 作話(confabulation) という用語を何度か見たが、LLM で起きていることをよりよく反映していると思う
- AI/機械学習分野全体が擬人化に頼って用語を作り、その用語が物語として強化された結果だ
幻覚は、質問を受けたときに思い浮かぶ最初のあり得そうな答えをそのまま言ってしまう結果に近いのではないかと思う
人間は普通そうはしない。以前に答えた質問で間違えた記憶があり、話す前に別の知識と照合しながら内部的に常識チェックを行う
だから LLM が即座に正解を作ると期待するより、内省する余地を与えるべき
人間の思考も、複数の役割やペルソナが内部で議論し妥協して答えを出す場合が多く、最初の「草案」ができてから初めて、その答えを口にしたときの結果といった追加の文脈を想像できる
したがって、プロンプトへの最初の「直感的反応」だけで LLM の知能を評価するのは、間違ったアプローチかもしれない
- 人間に知らないことを尋ねた場合、最初に思うのは作り話の答えではなく、分からないだ
  話をでっち上げるにはむしろ努力が必要で、訓練なしではたいていうまくできない。自然にそうする人もいるが、普通は障害と見なされる
  LLM には「分からない」という概念がなく、訓練データに最もよく合うものを書くにすぎない。訓練データに「分からない」が多くないので、自然な答えでもない
  小さな街のバーの一覧を尋ねたら、名前、住所、電話番号まで、もっともらしく全部でっち上げた。その街をよく知らない普通の人間に「分からない」なしでそれらしい答えを強要すれば、最終的に答えを作ることはできるかもしれないが、それが最初の考えであることは絶対にない
- LLM を人間の心と比較する理由はなく、そうした比較は何でも擬人化しようとする悪い習慣に近いと思う
  LLM には直感もなければ、時間を経験することもない。試験時間が迫って適当に答えを選ぶ緊張した子どもではなく、コンピュータに正しい答えを出させるという半世紀以上の伝統を捨てて、雰囲気を追いかけたソフトウェア開発の産物だ
- 評価すべき知能がない。知的ではなく、内部に論理や熟考があるわけでもない
- 自分に何か質問したことがないからそう思うのだろう。特にコーヒーを飲みながら技術的な質問を受けたら、間違った答え1つにつき1セントもらうだけでも、もう百万長者になっていただろう
- 人間の脳は、思考を観察された現実と何らかの形で結び付けているように見える
  感覚と推論を担う部分が記憶を扱う部分と相互作用し、異なる種類の記憶が折り合いをつける。筋の通った記憶は、偶然見ただけのものより強くなることもある
  LLM はこうしたことをしていないように見え、設計上、幻覚の緩和では脳より弱い
  脳で幻覚のある人に異常に見える部分とその動作モデルを見て、LLM に適用できるかを調べるのが、脳に着想を得た研究の方向性になりそうだ
  海馬のような構造のモデルをニューラルネットワークに適用するアイデアも、すでに複数の研究者が取り組んでいる
現在の構造は根本的に幻覚まみれなので、実用的な利用、とりわけ過剰な期待が語る用途は大きく制限されると思う
ただしこの記事は「幻覚しない」の基準を、不可能なほど高く設定している
形式体系と機械的計算におけるよく知られた根本的限界を繰り返し述べたうえで、LLM もその限界を共有するという当然の結論を示しているにすぎない
二元論や推測的な量子超計算のようなものを持ち出さない限り、この限界は人間にも非常に多く当てはまる
- 逆に、幻覚を取り除いた LLM はほとんどコピー＆ペースト装置になる
  LLM の面白い性質は、何かをでっち上げながらも、それをもっともらしくできるところから来ている
- C.S. Peirce はアブダクションを特徴づけた人物で、John Sowa の古典的 AI 研究にもかなり影響を与えたが、興味深い見方を持っていた
  物質と精神はどちらも実在するが二元的ではなく、その間には滑らかで連続的な遷移があると考えた
  ただし精神と物質の本性が何であれ、人間が Peirce のいう記号過程(semiosis) を通じて記号に意味を作り出すという説得力のある証拠はある
  私たちはこれを適切に形式化した記号論をまだ持っておらず、この領域には興味深い数学的な応用哲学も多いが、学界のたわごとも多い
  それを成し遂げるまでは、記号過程を実行するオートマトンを作るのは難しく、当面は人間と LLM の能力の間に質的な差が残る
- 正直、印象的なのはどれほどできないかだ
  すべてのモデルを使ったとは言えないが、ほとんどは「3つの個体が相互作用する過程を説明せよ」のような要求で非常に早く失敗する
  2つまではたいてい処理するが、結局同じことをぐるぐる繰り返したり、多くのモデルでは段落を丸ごと反復し始めたりする。3つは完全に手に余るように見える
  LLM は「ほとんどは間違っているが、検証が安いので、もし良いアイデアがあれば拾えるものを作るために資金を投じる」分野では役割があるかもしれない
不完全な訓練データを測定することには、あまり意味がないように思える
そもそも学習とは、不完全なデータを扱うことではないのか？データが完全なら機械学習は必要なく、入力を出力にマッピングする関数をそのまま作ればよい
機械学習は予測によって隙間を埋める作業であり、一般的な学習も同じである
だから、この理論が対象にしている内容は、人間の知能や学習にも当てはまる
LLMは常に幻覚すると言うことはできるが、人間も常に幻覚している
本当に解くべき問題は、LLMを人間のように幻覚させる方法である
- 「機械学習は予測で隙間を埋めるもの」という解釈は、ネットワークベースの機械学習に寛容に見える
  機械学習は問題を解くために設計され、多くのデータから関数を導き出せるという点で、古典的AIのようにアルゴリズムを直接構成する方式とは異なっていた
  しかし現在の機械学習式の「知能」は人間の思考とは違う。人間は猫を知るために何百万もの例を必要とせず、2つか3つ見ただけでも、その後ずっと識別できる
  黒猫を1匹見ただけでも、別の家猫を猫として正しく認識できるし、子どもたちを見れば実際にそうだと分かる
  知能とは事前知識なしに解法を思いつく能力であり、より知的な存在ほど必要なデータは少ない。より知的なシステムに近づくほど、効果を出すために必要なデータは増えるのではなく、減るべきである
- その通りだが、モデルに補間を求めているのか、外挿を求めているのかによって大きく違う
  一般にモデルは前者でははるかにうまくやり、後者では大きな問題を抱える
LLMの現在の幻覚の仕方は、知識を表現する方法と深く関係しているように見える
コスト関数を見ると、対数尤度と呼ぶ理由がある。実際の目標は、現実に対する堅牢なモデルの概念と一貫した答えではなく、最も抽象的な意味でそれらしいトークン列を作ることだ
モデルが幻覚するときも、私たちが訓練したことをかなりうまくやっているとも言え、可能性の高いテキストを作ろうとして、文法や単純な単語選択のような訓練データのより一般的なパターンへ暗黙のうちに後退している
適切な構造変更があれば、幻覚問題を完全に、あるいはほぼ解決できるかもしれないと想像している
ただし、そうした変更を加えながらも効率的に訓練可能なモデルを作れるかどうかは、まだ未解決の問いのように見える
- 誰かがそのような構造変更を見つけ出したら、その成果物はもはやLLMとは呼ばれないだろうし、論文も正しいことになるだろう
- 問題を完全に解決することはできない。数学的に決定不能だからであり、実のところこのプレプリントがなくても直感できたはずだ
  それでも、より良い問いは、十分に良い性能を得られるかどうかである
LLMを効果的に使うには、根本的に信頼できず非決定的な技術を使う方法を学ばなければならない
多くの人はこの壁をほとんど越えられていないようだ
- 誠実さと正確さが信頼を生む
  何かを信頼できると、それがどのように自分を欺き得るのか、どう対応すべきかについてのメンタルモデルを作る必要が減り、認知負荷が下がる
  だから少なくとも私にとって、LLMは有用だがストレスが大きい
- LLMは根本的に非決定的ではない。たとえば貪欲サンプリングによる生成は非常に単純である
そろそろバブルが弾ける時期なのかもしれない
- その前に、私たちが「AGI」と呼ぶものをまず達成しなければならない
  さらにその前にそれを定義しなければならないが、現実的には誰もAGIが何なのか分かっていない。だから何にでもなり得る
  SamがGPT-3.5、ChatGPT、マルチモーダルGPT-4、o1(Strawberry)の後でもAGIが達成されたとは信じていないということは、AGIとは結局、数十億人の創作と労働を取り込み、数千億ドルを調達し、全員をUBIベースの仕組みに乗せていく間に、内部者が富むことを意味しているように見える
  幻覚は、AGIがまだ達成されていないと言うための口実に見える。だから、これからも幻覚するモデルのために、訓練と推論のエネルギーコストへさらに多くの資金を集められる
  OpenAIがすべての価値を取り込み、内部者が現金化した後で初めて、AIスタートアップの95%が消えるバブル崩壊を望むのだろう。OpenAIだけは例外として残りながら
- LLMは知能と愚かさの両方を増幅する
  だからTerence TaoはLLMを平凡な大学院生レベルくらい、しかもさらに良くなっていると見ているが、あなたは死ぬのを待っているだけなのだ
「これを抱えて生きていく」必要はない
ただ使わず、無視し、普及と受容に反対すればよい。私はこれからもそうするつもりだ
- 技術的には正しい。結局、Donald Knuthもまだメールを使っていない
  しかし世界全体としての「私たち」は、その要請にほぼ確実に従わないだろう
- これは「反進歩」だ。私たちは、自分たちで作った現実崩壊の地獄門へつながるとしても、常に進歩を追求しなければならない。奇妙な国へ前進しよう、と言いたい
- 私は使いたいし、他の人も大勢使っている。取り残されたいなら自由だ
LLMはエキスパートシステムと同じ道をたどるだろう
なぜ私たちはそれが可能だと思っていたのか、後になって不思議に思うことになりそうだ
AI専門家という狭いアイデンティティに自分を閉じ込めないよう勧めたい。じきに外はかなり寒くなるだろう
同意しない — https://arxiv.org/abs/2406.17642
関連研究では停止問題と計算困難性の問題を扱っている
当然ながら、LLMは計算困難な問題には答えられない
停止問題に関する質問に「それは計算できない」と答えることを、なぜ幻覚と呼ぶべきなのかも分からない

LLMにおける永続的なハルシネーション現象、私たちが受け入れるべき現実

LLMハルシネーションの構造的限界

なぜ完全に除去しにくいのか

処理段階ごとに残るハルシネーションの可能性

Structural Hallucinations

関連記事

1件のコメント

Hacker News の意見