- LLMは合成的タスク(Compositional Task)に苦戦しており、これはその能力に限界があることを示唆している
- この問題は、LLMが訓練データで見たものを超える推論ができないことを示している
- 1962年12月17日、Life Internationalに15の文からなる論理パズルが掲載された
- 「イギリス人は赤い家に住んでいる」や「中央の家では牛乳を飲む」のように、各文が手がかりを提供する
- 5軒の家の色、住人の国籍、ペット、飲み物などの属性はすべて異なっており、「誰がシマウマを所有しているのか」が核心の問いだった
- この問題はEinstein’s puzzle(またはriddle)と呼ばれ、最近では機械学習モデル、特に大規模言語モデル(LLM)の多段階推論能力を測る指標として使われている
- Allen Institute for AIの研究科学者Nouha Dziriと同僚たちは、ChatGPTのようなLLMをこのパズルに適用し、その限界を確認した
- LLMが訓練データで見た内容を超える複雑な問題を解くのが難しいことが明らかになった
- これは、「段階ごとに解いた結果を統合して最終的な答えに至る」合成的推論(compositional reasoning)の難しさを示している
- Dziriの研究チームは、LLMには単語予測だけで学習されるという構造的限界があると主張している
- 別の研究チームも、現在広く使われているトランスフォーマー(transformer)アーキテクチャには、このような複雑な問題解決において数学的な限界があることを証明した
- ますます強力なモデルが登場しているが、それでも根本的にすべての合成的推論問題を解けない可能性があるとの見方が出ている
- Andrew Wilson(NYU)は、こうした研究がAI研究コミュニティに対し、トランスフォーマー中心のアプローチをこのまま推し進めるべきか再考させると述べた
驚異的な成果が呼び起こした疑問
- Dziriによれば、LLMが驚くべき言語能力を見せ始めたことで、「本当の推論が可能なのか」という好奇心が高まった
- LLMはインターネット上に存在する膨大なテキストから、単純な方法(文の続きを予測すること)で学習しているにもかかわらず、自然言語処理や文書要約、コード生成など複雑な作業をこなしている
- OpenAIのo1、GPT-4、GoogleのGemini、AnthropicのClaudeなどが代表的な巨大モデルだ
- しかし、こうしたモデルは時に、人間から見れば簡単な問題で思いがけない誤りを起こすこともある
- たとえば、単純な掛け算ですら頻繁に間違える事例が報告されている
- Dziriの研究によると、GPT-4に3桁の掛け算をさせたところ正答率は59%にとどまり、4桁の掛け算になると4%まで大きく低下した
- Einstein’s puzzleの変形版でも、家が小さい場合(属性が2〜3個)は高い精度を示したが、属性が4〜5個になると成功率は劇的に低下した
- GPT-3を180万件の掛け算データでファインチューニングしたところ、訓練に含まれる範囲内ではよく解けたが、訓練例とは異なる形式で問うと正答率が急落した
- これは、モデルがアルゴリズムそのものを理解したというより、訓練例に依存して模倣しているに近いという結論につながる
明白な限界
- Dziriや他の研究者が共通して指摘する問題は、「合成的推論能力」の不足だ
- Binghui Peng(Stanford University)は、コロンビア大学の博士課程在籍時に、LLMが「父の父は誰か」のような事実の組み合わせを問う質問で頻繁に誤ることに注目した
- 彼は、単純なトランスフォーマー層(レイヤー)がこうした問題を解くのにどれだけ多くのパラメータを必要とするかを計算し、ドメインの大きさがモデルのパラメータ数より大きければ解決不可能だという結論を得た
- その後、多層トランスフォーマーに拡張しても、複雑な合成的推論問題に突き当たると数学的に不可能であることを証明した
- つまり、モデル規模が大きくなればより難しい問題を解けるようにはなるが、同時に問題の難易度も拡大すれば限界が露呈する構造だ
- 一部の研究者はトランスフォーマー以外の別のニューラルネットワーク構造、たとえばstate-space modelsなども試したが、同様の限界が確認された
限界を超える試み
- LLMの限界を克服するために、さまざまな補完策が提案されている
- たとえばTom Goldstein(University of Maryland)のチームは、数値をトランスフォーマーに入力する際に位置情報を追加で与え、より大きな桁数の演算も可能にした
- この取り組みにより、20桁の数で訓練したモデルが100桁の加算でも98%の正答率を示す結果が得られた
- 別の方法として、問題解決の過程をプロンプト内に段階的に提示するchain-of-thought手法もある
- GPT-4のようなモデルは、この方法によってより複雑な問題も解ける可能性を示していることが観察されている
- これは「大きな問題を小さな問題の連鎖に分解する原理」に基づいており、この方式がトランスフォーマーで処理可能な演算範囲を広げる効果を生むという理論的解釈が示されている
- しかし、実際のモデルがあらゆる問題でこの能力を発揮するわけではなく、訓練方法やモデル構造などによって結果は変わる
- 究極的には、LLMはパターンマッチングに基づいているため、大きい、あるいは複雑な合成的推論問題では常に限界が存在する
- それでも一般ユーザーの立場では、こうした限界はそれほど重要ではないかもしれない
- 一方で、モデルを作る研究者にとっては、構造的限界を理解し修正することが中核的な課題となる
- Dziriは「LLMの内部動作原理を正確に把握できれば、根本的な問題を解決できる可能性が高まる」と強調した
5件のコメント
推論時代以前の話ですね
~記号がMarkdownの取り消し線用の記法として認識される問題があります。修正していただけると助かります。コーディングしながらLLMを使うときは、だからこそ結合度を低くして関心の分離をうまくできるほど、仕事がうまく進むようです。実は、これは人間も同じなのではないかという気もします。 ;)
記事自体は最近のものですが、ベースになっている内容は o1 以前のものみたいですね。
「父の弟の母の姉妹の娘は、私とは何親等の関係?」のようなことを尋ねてみたのですが、
4o には明らかに限界があり、o1 は引っかけまできちんと回避していました。
Hacker Newsの意見
LLMは他の機械学習モデルと同様に、入力データをパターンマッチングして統計的に可能性の高い結果を導き出す特性を持つ
LLMはAIの驚異であり、以前は不可能だと考えられていたことを2か月ごとに進歩させている
LLM研究については誤情報が多い
o3-mini-highはPrologコードを素早く生成できた最近の研究結果はGPT-3、3.5、初代4を扱っている
ChatGPTは高速な検索エンジンのように感じられ、多くのハルシネーションと限られたコンテキストを持つ
研究結果が純粋なLLMを分析しているのか、LLM合成エンジンを分析しているのかを区別する必要がある
LLMは2Dまたは3Dの思考を必要とする簡単な質問で失敗することがある
LLMの制約が記事で言及されると、数か月後にはその制約のないチャットボットが登場する
学術研究が出版される頃には、すでに数か月経っていることが多い