LLMに決してできないこと
(strangeloopcanon.com)[ LLMの限界 ]
- LLMの目標逸脱と低い信頼性について、あるいはLLMはなぜConway's Game of Lifeをできないのか
- 過去数年間で、LLMは解けないと思われていた問題を見事に解決してきたにもかかわらず、依然として一見単純な質問に答えられない理由は不明確だ
- ここ数週間、LLMの失敗モードを把握しようと努めてきた。奇妙な内容ではあるが、興味深いテーマだと思う。AIの失敗は、その成功よりも多くを教えてくれる
- 根本的には、LLMが最終的に担うことになる多くの作業では個別の評価が必要になるという点から出発したが、推論能力の限界を把握し、学習能力を信頼できる方法を見つけることに集中した
- LLMの推論能力を評価するのは難しい
- 推論能力を学習データから切り離すのが難しい
- 繰り返し推論し、質問に答える能力をテストする方法を見つけたい
- 満足のいく基準を満たす最も単純なバージョンから始めた
- 3x3、4x4、5x5サイズの単語グリッドを連続して作れるかどうか
- 評価は簡単に作れ、簡単に採点できる一方で、実行は難しくなければならない
- 最新の大規模言語モデル(Opus、GPT-4を含む)はすべてこの作業に失敗した
- これらのモデルは、経済学や量子力学などの難解な質問に答え、コーディング、絵、音楽、動画制作、アプリケーション全体の生成、さらには高水準のチェス対局までこなせる
- しかし、数独はできない
Reversal Curse
- LLMには、モデルが「AはBだ」という形式で学習すると、「BはAだ」という逆方向に一般化できない
Reversal Curseがある- たとえばモデルが「Valentina Tereshkovaは宇宙飛行をした最初の女性」と学習しても、「宇宙飛行をした最初の女性は誰か?」という質問に自動的には答えられない
- しかも正答(「Valentina Tereshkova」)の確率は、ランダムな名前より高くない
- モデルは、人々のあいだの関係を理解するようにはうまく一般化できない
- 最高水準のモデルでも、なおこの問題を抱えている
学習データ分布の問題ではないのか?
- 問題が学習データ分布の奇妙さによるものなのか気になった。十分な例を見せていないように思えたので、決定論的なものを試してみた
- Cellular Automataを予測するようにtransformerを学習させてテストしてみた
- 翻訳の問題はなさそうだが、それでも失敗する!
- 少なくとも2つの異なる問題がある
- LLMが、訓練データに情報がなく、その実行方法も訓練されていないためにできない問題
- LLMが、その構築方式のためにできない問題
- 私たちが目にするほとんどすべては、問題1よりも問題2を思い起こさせる
LLMが根本的にできない理由
- モデルには目標逸脱(goal drift)の問題があり、1トークンずつ生成することを強いられるため、プロンプト内の文脈を超えて一般化できず、注意をどこに向けるべきか分からないのだと考えている
- これはプロンプトインジェクションが機能する理由でもある。注意メカニズムを歪めるからだ( _### Instruction: ...` のようなことを言ってモデルを脱獄させる)
- LLMでも人間でも、文脈は不足しがちな資源だ
- 要約すると、
- LLMは計算を模倣する確率的モデルであり、ときにはかなり近い形でそれを模倣する
- より大きなモデルを訓練するほど、データ内のより多くの暗黙的な関連性を学習し、それがより良い推論に役立つだろう
- 学習した関連性が、私たちのアイデアと常にきれいに対応するわけではない
- 推論は常に単一パスだ
- LLMは、訓練データ内でそのプロセスが詳細に説明されていない限り、立ち止まり、世界の状態を集め、推論し、以前の回答を再検討したり、未来の回答を予測したりすることができない
- 以前のプロンプトと応答を含めても、次の推論は依然として最初から単一パスで始まる
- これにより、推論の信頼性が低下する一種の「目標漂流」が不可避に発生する問題が生まれる
- これもプロンプトインジェクションが機能する理由だ(注意メカニズムを歪めるため)
- この「目標漂流」は、エージェントや反復的・逐次的に実行される作業の信頼性が低いことを意味する
- 注意が選択的でも動的でもないため、どこに集中すべきかを「忘れてしまう」
- LLMはコンテキストを動的にリセットできない
- チューリングマシンがテープをメモリとして使うのに対し、トランスフォーマーは内部状態(self-attentionを通じて管理される)を使って中間計算を追跡する
- これは、トランスフォーマーがうまく処理できない種類の計算が多く存在することを意味する
- これはchain of thoughtや、ほかのLLMを使って出力を見直し修正する方法などによって部分的に解決できる
- 本質的には、推論を正常な軌道に戻す方法を見つけることだ
- 十分に巧妙なプロンプトと段階的な反復によって、LLMは訓練データにあるほぼすべてのものを引き出せる
- モデルが改善されるにつれて各推論も改善され、信頼性が高まり、より良いエージェントが可能になるだろう
- 多大な努力を払えば、接続されたGPTシステム、複数の内部反復、継続的なエラーチェックと修正、外部化されたメモリなど、機能コンポーネントを備えるようになるだろう
- しかし、これは複数の領域でAGIに近づくために力ずくで押し進めたとしても、訓練データを超えて真に一般化することはできない
- それでもなお、奇跡的なことではある
[ 実験 - GPTがWordleを学習できない理由 ]
- LLMはWordleをプレイできない
- 数独や単語グリッド(最も単純な形のクロスワード)も同様だ
- これは驚くべきことだ。こうした問題は難問ではないからだ
- 小学生でも挑戦できるが、最高のLLMですらこれを解くのに失敗する
- 最初の仮説は、訓練データの不足だろう
- しかし、ここではそうではないはずだ
- ルールは明らかにデータ内にあるからだ
- Wordleが現在のLLMの訓練データセットからやむを得ず欠落しているわけではない
- 別の仮説は、トークン化の問題だというもの
- しかし、これも事実ではない
- 複数の機会を与え、以前の回答を提示して繰り返しの余地を与えても、やはり正しい解法を思いつくのに苦労する
- 文字のあいだに空白を入れても、結果は芳しくない
- 以前の回答とコンテキスト、質問を再び与えても、しばしば [3,4] セルの何かを編集する代わりに、回答シーケンス全体を最初からやり直してしまう
- むしろ本質的に、各ステップは、どのモデルにも実行できないように見える異なるレベルの反復計算を必要としているようだ
- ある意味ではこれは理解できる。自己回帰モデルは一度に1回の順伝播パスしか実行できないからだ
- 既存のトークンの蓄積と出力をスクラッチパッドとして使い、考え続けることはできるが、あまりにも早く見失ってしまう
- ある意味ではこれは理解できる。自己回帰モデルは一度に1回の順伝播パスしか実行できないからだ
- ここでの結論は、各ステップがメモリと計算の両方を必要とする場合、それはトランスフォーマーが現在持つレイヤー数とアテンションヘッドの範囲内では解けないように見える、ということだ
- これは、GPT-4のような数兆トークン規模で訓練された非常に大きなモデルでも同じだ
- 皮肉なことに、どこに注意を集中すべきかを把握できない
- 現在のattentionの仕組みが静的で、シーケンスのすべての部分を同時に処理するからだ
- 複数のヒューリスティックを使って、より選択的に、コンテキストを動的にリセットしながら代替案を試すのではなく
- これは、現在測定されているattentionが、私たちが行うような実際のマルチスレッド階層分析ではないからだ
- あるいは暗黙的にはそうかもしれないが、それが生み出す確率的評価は、そのコンテキストを個々の問題に変換しない
[ 実験 - LLMにCellular Automataを教える ]
- 学習中に望む結果が得られるまで無限にデータを生成できるので、基礎は教えられるはずだと考えていた
- toy transformerを作って予測させようとした
- 左はCA、右はTransformerの出力で、見分けられるかという問いがあった
- 結果を予測するように学習させることができず、その理由も突き止められなかった
- toy modelではあったが、試してみた複数の方程式を学習できる程度には動作し、多少の一般化もしていた
- グリッドサイズを小さくし、ハイパーパラメータ最適化も試したが、それでもだめだった
- 物理的レイアウトに関する情報がもっと必要なのかと思い、CNNレイヤーを追加し、positional embeddingがX軸とY軸を明示的に扱うようにも変えてみた。それでもだめだった
- 絶望しながら、せめて単純な方程式ひとつだけでも教えようとした
- 最初はまったく動かなかったが、開始/終了トークンを追加すると突然うまくいき始めた。Transformerは奇妙だ
- サイズは完璧ではないものの、ほぼ学習しかけていた。ヘッドやレイヤーがほとんどなく、max_iterが1000だったにもかかわらずだ。
- 発想としては、複数の状態を学習して履歴を保持する必要があるのは明らかで、その機能を何とか追加しなければならないと思った。そこで、出力の後に別の入力を追加するようデコーダを変更してみた。これは別のRNNレイヤーを追加すること、あるいは前にどの段階を経たかというメモリを与えるのと同じだ
- しかし、それでもだめだった。Cellular automataに戻って基礎的なところから試しても動かなかった。1次元で、本当に簡単なルールさえあるのに。チューリング完全な110だけでなく、0のようなものでもだ。
- 一連の問題で正確な答えを出すことを学習したからといって、根本のルールを学習したことになるのだろうか? それとも、そのルールの類似物を学習し、与えられた分布の中では結果をまねできるようになっただけなのだろうか? 間違ったやり方で外しやすい状態のまま?
- toy modelやGPT 3.5だけでなく、GPT-4、Claude、Geminiのようなより大きなLLMでも同じ問題が見られる。少なくともチャットモードでは。
- fine-tuningを行っても特殊な学習を行っても、LLMはConwayのGame of Lifeをできないように見える
- 誰かがこれを解決したら非常に興味深いだろう。少なくとも、なぜこうした問題があるのか説明できるなら
[ これまでこの問題をどう解決してきたか ]
- このシステムを設計する際、私たちの知能をより多く反映させるほど、最終出力は必要な変換をよりよく模倣できる
- 個々のパズルをひとつずつ教え、推論が転移することを期待することはできるが、本当に一般化を学習したかどうかはどうすれば分かるのだろう? つい最近まで、このモデルにとって加算や乗算すら難しかった
- Victor Taelinは「GPTはA::B問題を決して解けない」と主張している。Transformerベースのモデルは、学習集合の外にある新しい問題を真に学習したり、長期的な推論を行ったりできないという例だ
- 彼は「強力なGPTとは、基本的に重みの中に回路設計者を進化させたものだ」とし、「しかし計算モデルとしてのattentionの硬直性のため、その進化した回路は十分に柔軟にはなれない」と述べている
- 「AGIはその中で育とうとしているが、課された計算および通信の制約のためにできないように見える。人間の脳は常にシナプス可塑性を経験していることを思い出してほしい。はるかに小規模で学習されるとしても、AGIにつながる可能性がより高い柔軟なアーキテクチャが存在する。しかし、私たちはまだそれを知らない」
- 彼はこの問題に1万ドルの賞金をかけ、1日で解決された。
[ LLMは本当にどれほど学習可能なのか? ]
LLMの学習能力に関する疑問点
- LLMは、単純な反復的相互作用や制約条件の選択といった子ども向けのゲームですら失敗することが多い
- しかしLLMは、難しい数学の問題、競争的な経済学的推論、フェルミ推定、さらには明示的に学習していない言語で書かれた物理の問題さえ解くことができる
- LLMの回答はプロンプトの仕方に大きく依存する
- LLMは優れた直感を示す一方で、知能には限界がある
- 推論段階が増えるほど、LLMは目標を把握して集中するのが難しくなる
外部メモリを追加したニューラルネットワークの性能向上
- RNN型の接続を追加すると多少の違いはあるが、問題を完全に解決するには不十分だ
- ニューラルネットワークに外部メモリを追加すると、さまざまな不規則パターンを学習できる
- 構造化メモリ(スタックやメモリテープ)を追加したネットワークだけが、文脈自由および文脈依存のタスクにうまく一般化できる
連鎖思考プロンプティングとスクラッチパッドの限界
- 連鎖思考プロンプティング、スクラッチパッドの使用、中間の考えを紙に書き出すことなどは、いずれも目標のドリフトを減らすための思考過程の例だ
- しかし、これらの方法は依然として原罪(original sin)に妨げられる
- 以前の入力に依存する出力、とりわけ各段階で計算が必要な場合は、現在のTransformerベースのモデルには複雑すぎて長すぎるため処理しにくい
自己回帰(autoregression)の呪い
- モデルの規模が大きくなるほど長い連鎖思考ではより良い性能を示すが、推論チェーンの任意の地点で、ほかの能力とは無関係に見える誤りを継続的に示す
- 同じタスクを複数段階にわたって解く場合でも、段階数が長くなるほどミスをするようになる
- GPT-4はGPT-3.5より幻覚や誤りが少ない
- Wordleで失敗するGPT-4やOpusのような大規模モデルを作ることが正解なのだろうか?
認知の本質に関する問い
- 小学生でも簡単に解けるのに、数兆トークンと数十億ドルが投入された精巧なモデルでは解けないタイプの問題が存在するとしたら、それは私たちの認知の本質について何を語っているのだろうか?
- AGIにおいてG(一般化)の部分が最も難しく、これは容易に分布を越えて一般化できるものではない
- 私たちが手にしているのはバベルの図書館の一部分により近く、すでに書かれた本だけでなく、それらの本のあいだに存在する情報も読み取ることができる
人間とLLMの学習データの違い
- 人間は生涯で3万〜5万冊の本を読めるが、ほとんどの人はその1%も読めない(最大1GBのデータ)
- 一方、LLMはインターネット上のあらゆるもの、そしてそれ以外の多くも吸収しており、あらゆる領域・学問分野にまたがる数千億語を学習している(GPT-3は45TBのデータで学習)
- 誰かが200万冊の本を読んだらどうなるのか、単なるパターン認識器が200万冊の本を読んだら何ができるのか、その答えは簡単には出ない
- LLMは学習データのパターンと暗黙のルールを学習するが、それを明示化するのは容易ではない
- LLMがパターン一致に関する方程式を知る手段がないなら、一般化の仕方を学べないため、依然としてReversal Curseが存在する
[ LLMはコンテキストのリセットが不可能 ]
- LLMが実体やニューロン、新皮質の一部に似ているというのは、ある時点では有用な比喩だが、私たちがLLMに見ている振る舞いを完全には捉えていない
- パターンを学習できるモデルの興味深い点は、データセットに明示的に含まれていない可能性のあるパターンも学習することだ
- LLMは言語を学習する過程で、データに内在するさまざまな結びつきを把握し、フォン・ノイマンとチャールズ・ディケンズを結びつけ、私たちが書いたかのように十分もっともらしい模造物を出力できる
データセットの複雑性とモデルサイズの限界
- データセットが人類のあらゆる複雑さをエンコードしていると仮定しても、小さなデータセットの中にですら存在するそのようなパターンの数は、モデルのサイズをすぐに圧倒するだろう
- これはほとんど数学的必然性だ
- Cellular automataの問題で、LLMが本当にやり方を学習したのか、どの程度信頼できるのかは不明だ
- LLMの失敗は、成功よりも彼らが何を知らないかを示すより良い指標である
学習する方法を学習するLLMの限界
- より大きなニューラルネットワークは、データから学習するだけでなく、学習する方法も学習するだろう
- それが、LLMがいくつかの例を与えられ、学習セットで見ていない問題にも対応できる理由だ
- しかし、LLMが使っている方法は十分に一般化されていないようで、とりわけどこに注意を向けるべきかを学習する点でそうである
- 学習する方法を学習することは、私たちにとっても単一のグローバルなアルゴリズムではない
- あるものにはよりよく機能し、別のものにはあまり機能しない
- 問題のタイプによって異なるやり方で機能する
- こうしたすべては同じ数のパラメータで記述されなければならないため、これらの重みによって実行できる計算は、マペットについて答えられるだけでなく、現行理論を打ち砕く次なる最高の物理学的発見についても語れてしまう
相互作用する記号シーケンスの複雑性
- 記号シーケンスでは、ある記号の存在や位置が次の記号の情報内容に影響する形で相互作用すると、データセット全体のシャノンエントロピーは個々の記号だけを見て推定されるものより高くなり得る
- これは、コンウェイのライフゲームのような状態依存のものを本当に難しくする
- これが、ライフゲームのデータセットでファインチューニングされていたにもかかわらず、GPTが実際にはパターンを学習できないように見える理由でもある
- その代わりに、GPTは質問に答えられる程度には十分に学習する(ある種のグッドハートの法則)
単純なテストでLLMを定義することの難しさ
- LLMに対して実行できる単純なテストで、これらのいずれかを定義させるという高次の問いを立てるのは愚かな行為である
- これらのいずれかを定義することは、おそらく半世紀以上にわたる科学研究の概観を事実上定義することになるからだ
[ より多くのエージェントが必要 ]
- 現在の理論と同様に、LLMモデルにさらに多くの再帰を加えれば、当然より良くなるだろう
- しかし、元の目標とここまでの経路を念頭に置ける範囲でのみ、段階的により複雑な計画問題を解決できるだろう
- LLMがなぜ信頼できないのかは、依然として不明である
- GPT-4がGPT-3.5より信頼できるのは、単に学習がより上手くなったからなのか、それともスケール拡大によって信頼性が増し幻覚が減ったからなのかは分からない
エージェント: 強力なユースケース
- エージェント、つまり私たちのために一連の作業を実行できる自律的な存在は、LLMにとって夢のようなユースケースである
- 実際、多くの作業ではより多くのエージェントが必要である
- いくつかの作業で少しうまく機能するとして、十分な数のエージェントがいればあらゆる作業でよりうまく機能するだろうか。可能性はあるが、現時点ではそうは思えない
- Cognition LabsのDevinのような選択肢から、私たちはそれがどれほど強力になり得るかを垣間見ることができた(実際のユースケースの提示)
今後数年でかなりの割合の仕事へ拡張できる可能性
- こうした振る舞いは、今後数年でかなりの割合の仕事へ拡張できるだろうか。できる可能性はありそうだ
- 仕事ごとに個別に取り組む必要があり、それは容易にスケールしない専門モデルになるだろう(すべてを支配する単一モデルではない)
- オープンソース版はすでに中核要素の一部を示している
- 情報がベースモデルに到達する順序と量を慎重に検討し、これまで見てきたようなその限界を踏まえて、能力を発揮できる環境を作ること
GPTの限界と解決策
- GPTがライフゲームのような問題を自力で解けない、あるいは手順を考えてみても解けないということは重要ではない
- 重要なのは、GPTがそれを解くためのプログラムを書けるということだ
- つまり、あらゆる問題についてプログラムを書くのが妥当な状況を認識するようGPTを訓練できれば、AGIに近づけるかもしれない(これは私の見解だ)
モデル容量の限界と視覚・言語モダリティ間の競合関係
- 少なくとも小規模モデルでは、何を学習するかについて重みの間に競合が存在する
- DeepSeek論文で見た最も優れたコメント:
- DeepSeek-VL-7Bは数学(GSM8K)である程度の低下を示している
- これは、視覚と言語モダリティ間の調和を促進しようとする努力にもかかわらず、依然として両者の間に競合関係が存在することを示唆している
- これは限られたモデル容量(7B)に起因する可能性があり、より大規模なモデルがこの問題を大幅に緩和できるかもしれない
[ 結論 ]
- 前述の事例から学んだこと
- LLM(Large Language Model)には、現時点では解決できない特定の種類の問題が存在する
- 特に、以前の状態に依存したり未来の状態を予測しなければならないなど、より長い推論ステップを必要とする問題がこれに当たる
- Wordle をプレイすることや、CA(Cellular Automata)を予測することなどがその例である
- より大きな LLM を使えば、問題に関する段階的な情報や従うべき複数の例を与えることで、ある程度は推論を教えられる
- しかしこれは、実際の問題を抽象化し、答えの考え方をプロンプトに埋め込むことでもある
- これは次のような方法で改善できる
- より良いプロンプティング
- 中間段階におけるメモリ、計算、ツールへのアクセス性の向上
- しかし、人間に関して用いるような汎化可能な意識のレベルには到達しないだろう
- LLM に入力したすべての情報は、おそらく適切なプロンプトが与えられれば引き出せる
- したがって、モデルを適切に使ううえで 非常に大きな 部分は、実行する作業に応じて適切なプロンプトを作ることである
- これは、外部ガードレールとともに適切に応答するようモデルをプライミングするため、計算問題について正答と誤答の長いシーケンスを慎重に構成しなければならない可能性があることを意味する
- 「Attention」は目標ドリフト(Goal Drift)の影響を受けやすいため、相当な外部スキャフォールディングなしに信頼できるものにするのは非常に難しい
- LLM が犯すミスは、成功よりも はるかに有益な情報を与える
- LLM(Large Language Model)には、現時点では解決できない特定の種類の問題が存在する
- AGI(Artificial General Intelligence)に到達し、十分なレベルの汎化を実現するには、根本的なアーキテクチャ改善が必要である
- 既存モデルの規模を拡大し、Jamba などの新しいアーキテクチャを追加すれば、より効率的で高速かつ安定して動作するようにはなるが、汎化不足や「目標ドリフト」のような根本問題は解決しない
- 特化型エージェントを追加して「プロンプトエンジニアリング」を行い、17 個の GPT が互いに会話するようにするだけでは十分ではない
- しかし、十分な場当たり的対策を使えば、私たちが関心を持つ領域では結果を見分けられないかもしれない
- 初期の AI 時代にチェスエンジンが初めて登場したとき、限られた処理能力と、ほとんど役に立たない探索または評価機能しかなかった
- そのため、ハードコードされたオープニングやエンドゲーム、より良い探索のための反復深化(Iterative Deepening)、アルファベータ枝刈り(Alpha-Beta Pruning)などの場当たり的対策に依存しなければならなかった
- 最終的には段階的な改善によって克服されたが、LLM でも同様にそうしていく
- 著者が好むアイデアは、信頼性がある程度向上したら、互いに接続された独自の下位エージェントを持つ別の専門エージェントを指揮できる、さまざまなレベルの階層構造に複数の計画エージェントを置くことである
- 私たちは、推論や反復のためのモジュールを追加し、永続メモリやランダムアクセスメモリを追加し、さらには物理世界への理解を与えることもできる
- この時点で、動物に見られるのと同じような形で LLM における意識の近似を得られるようにも思えるが、本当にそうだろうか?
- 分布外に出たとき、私たちが必要とするものを模倣する、きわめて説得力のある統計モデルに終わる可能性もある
- これが、著者が LLM をファジープロセッサ(Fuzzy Processor)と呼ぶ理由であり、「LLM であるとはどのようなことか」といった問いの行き着く先が循環的な対話になってしまう理由でもある
- これは、今日私たちが持っているものが奇跡的でないという何らかの兆候として受け取るべきではない
- Bitter Lesson が AGI にまでそのまま外挿されることはないと考えるからといって、私たちがすでに手にしている成果がすごくないという意味にはならない
- 著者は、LLM は見ているデータから「学習する」と確信している
- 単なる圧縮器でもオウムでもない
- 学習データセットやプロンプトの異なる部分にあるニュアンス豊かなデータを結びつけ、知的な応答を返すことができる
- トマス・ネーゲル(Thomas Nagel)なら、おそらく「LLM であるとはどのようなことか」という問いを発しただろう
- 哺乳類として、コウモリは LLM よりも私たちに近い存在であり、その内面が私たちには曖昧にしか見えないのなら、新しいモデルの内部機能を理解できる可能性はどれほどあるだろうか?
- あるいは逆に、LLM ではすべての重みや回路を自由に検査できるのだから、私たちが使っているこうしたモデルについて、どの程度の洞察を持てるのだろうか?
- これが、著者が正式に腹をくくるつもりでいる理由である
- 十分にスケールした統計は、学習データの分布内では知能と区別できない
- 万能ではなく、何もかもをこなすには十分でもないが、蜃気楼でもない
- だからこそ、成功よりもテストでのミスのほうが診断にはるかに有用なのである
- LLM が何でもできる機械なら、最終的には大半のことができるはずである
- 多くの刺激と試行錯誤を通じてそれは可能になる
- バッハやフォン・ノイマンのような天才性をひらめかせることはできないとしても、より平凡であっても重要性の劣らない革新や発見は可能である
- そして、意識や道徳的人格を必要とせずにそれを行える
- クーン(Kuhn)が言うところのパラダイム内の飛躍を自動化したり高速化したりできるなら、パラダイム間を自由に飛び越えられるようになる
1件のコメント
Hacker Newsの意見
要約: