Appleの「推論LLMの限界」論文に対する7つの反論とその限界

(garymarcus.substack.com)

15 ポイント投稿者 GN⁺ 2025-06-15 | 2件のコメント | WhatsAppで共有

Appleの**思考の幻想：推論LLMの限界を理解する**論文は、AIのスケーリング仮説に疑問を投げかけ、大きな反響を呼んだ
これに対して代表的な反論が7つあったが、この記事の著者であるGary Marcus（NYU名誉教授）は、いずれも説得力に欠けると評価している
「人間も間違える」、**「出力長の制限」「論文著者がインターン」**など、論点をぼかして本質を避ける議論が中心で、根本的な脆弱性の解決には至っていない
「コードを使えば解ける」といった一部の指摘には意味があるものの、むしろニューロシンボリックAIの必要性をいっそう際立たせるという結論である
最近のSalesforceの研究結果も、実際のビジネスシナリオにおけるLLMの複雑なマルチターン推論性能が35％にとどまることを示しており、Apple論文の懸念と一致している

Apple推論論文への7つの反論とその限界

序論

Appleの**Illusion of Thinking: 推論LLMの限界を理解する**論文は、大規模言語モデルの推論およびアルゴリズム実行の限界を明らかにし、業界・メディア・学界で大きな注目を集めた
筆者Gary Marcusが要約した論文解説ポストは15万人以上に読まれた
The Guardianはこのポストを参照したコラムを掲載し、ACMおよびフランス語版も登場して、世界的な関心の高さを示した
これに対してGenAI擁護派は論文に批判的な反応を示し、いくつもの反論を提起したが、いずれも根本的な反論にはなっていない

1. 「人間も複雑な問題や記憶を要する課題に苦労する」

人間も難しがるという主張自体は事実だが、そもそもコンピュータやAIを作った理由は、人間にはできない計算や反復作業を正確に処理するためである
例として、Tower of Hanoiパズルでは従来のシンボリックAIシステムはエラーなく実行できる
AGIであればむしろより進んだ性能を示すべきであり、単に人間に似たミスの範囲にとどまるのは限界と見なせる
Apple論文の核心は、LLMが複雑性を増し学習分布から離れるほど、適切なアルゴリズム実行を信頼できなくなることを示した点にある
**「人間も間違える」**というのは論点のすり替えである

2. 「LRMは出力トークン数の制限があるため解けない」

LRM（大規模推論モデル）には出力長の制限があるが、事例の一部（例：8枚ディスクのHanoi、255ステップ）は十分に出力可能な範囲である
よく設計されたシンボリックAIはこの種の問題の影響を受けず、AGIもまたそうあるべきである
トークン制限はバグであり、解決策とは言えない
基本的なアルゴリズムすら信頼性高く実行できないなら、現実の問題（軍事戦略、生物学など）はなおさら不可能である

3. 「論文著者はインターンだ」

これは**Ad hominem（人身攻撃）**にあたり、本質とは無関係である。科学的慣行を無視した誤りである
実際には著者は有望なPh.D.学生であり、論文には計6人（4人はPh.D.保持者で、Samy Bengioなど著名研究者を含む）が名を連ねている
著者の地位とは別に、論文の質こそが重要である

4. 「より大きなモデルならうまくできる」

一部のより大きなモデルで改善が報告されているものの、どの規模なら十分かは予測できない
同じアーキテクチャのLRMでも、ディスク6枚では成功し8枚では失敗するなど、一貫しない結果が出ている
モデルの信頼性と予測可能性が欠けており、すべての問題で事前検証が必要になるため、AGIとは程遠い

5. 「コードを書けば問題を解ける」

一部のLLMはコードを通じて問題を解けるが、これはニューロシンボリックAIの長所である
真の意味でのAGI/AIであれば、コードなしでも概念理解に基づく推論とバックトラッキングが可能であるべきだ
試験が学生の概念理解を評価するように、LLMにも真の概念的理解が求められている

6. 「実験は4つの例しかなく、Hanoi問題も完璧ではない」

論文内の4つの例がすべて完璧ではない可能性はあるが、さまざまな先行研究の結果と一致しており、類似の失敗例は継続して報告されている
NYUのTal Linzenらも、この文脈における限界をさらに裏づけている

7. 「そんなことはすでに知られている」

多くの研究者は以前からLLMの汎化の弱さを認識していた
しかし一般社会や産業の文脈では、今回の論文によって関心が集中している点に注目する必要がある
- これまで過大評価・誇張されてきたAGIの可能性について、業界が本格的に注目し議論するきっかけになったことが重要である
研究者のあいだでも、**「間違っている」と「以前から分かっていたことだ」**が同時に語られるという矛盾した反応が見られる

結論

以上の反論の中に、決定的に説得力のある内容は乏しい
Apple論文は、スケール拡大がAGIの答えではないことを示す明確なシグナルを改めて提示している
現在のLLM技術には、信頼性、汎化、概念的推論において明確な限界が見られる
実際にSam Altmanら主要人物も、現在の状況を深刻に受け止める空気を形成している

Salesforce論文と追加の収束的証拠

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

Salesforceの最新論文では、実際のビジネスシナリオ（顧客営業、サービス、B2B/B2Cなど）に基づくLLM評価ベンチマークが公開された
シングルターン（1回の質問応答）基準では成功率58％、マルチターン（連続する質疑応答）基準では成功率35％へ急落した
とくにワークフロー実行では83％以上の成績を出す一方で、多段推論や状況切り替えなどには限界がある
**機密性認識（Confidentiality awareness）**もほとんどなく、プロンプトで改善可能ではあるが性能低下を伴う
実際の企業環境における複雑さと現実性の要求に比べ、LLMの限界は明確であり、マルチターン推論・機密性・多様な業務スキルの統合の必要性が浮き彫りになっている

要約

Apple論文とSalesforce論文はいずれも、現世代のLLMが実際の複雑な推論、マルチターン対話、アルゴリズム実行などで深刻な限界を示している
AGIに近づくには、スケーリングを超えたニューロシンボリック統合と構造的改善が必要である
業界と研究者が本格的に限界の議論へ注目し始めたこと自体に意味がある

2件のコメント

fanotify 2025-06-16

アルトマンは自身のエッセイで、「10年後には、私たちは高エネルギー物理学を解く年から、その翌年には宇宙植民地化を始める年へと進んでいるかもしれない」と書いています。彼はさらに、ブレイン・コンピューター・インターフェースを通じてAIに直接「接続」しようとする人々は、人生が根本的に変わるのを見ることになるだろうと付け加えました。
このようなレトリックは、私たちの社会のいたるところでAI導入を加速させています。AIは現在、DOGE（首相官邸）によって政府を再編するために利用され、軍はそれをさらに致死的なものにするために活用しており、しばしば未知の結果を招きながら、私たちの子どもたちの教育も担っています。
つまり、AIの最大の危険の一つは、私たちがAIの能力を過大評価し、AIが「日和見的な脅迫」のような反社会的傾向を示すことが明らかになっているにもかかわらず、必要以上に信頼し、賢明とはいえないほどAIに依存してしまうことです。そうすることで、私たちは最も重要な瞬間にAIが失敗する可能性に対して脆弱になります。
「AIを使えばさまざまなアイデアを出すことはできますが、それでもかなりの監査が必要です」とオルティスは言います。「たとえば、税務申告書を作成するなら、ChatGPTよりもTurboTaxに似たツールを使うほうがよいでしょう。」

Why Superintelligent AI Isn't Taking Over Anytime Soon, WSJの記事からの抜粋です

GN⁺ 2025-06-15

Hacker Newsの意見

人間が複雑な問題や記憶負荷に苦しむのは確かだが、それがすべてではないという主張。機械には人間より優れた結果を出してほしいという期待を強調。人間もこうしたミスをすると認めつつ、同時に「思考能力」の定義にはこの能力が必要だと主張するなら、結局は人間の思考自体も幻想だという結論になる、という考えを共有
- 私も共感するが、AGIに関する部分は誤った主張だと思う。平均的な人間と同じ水準ですべての作業をこなせるAIこそが、まさにAGIの定義だという見解
- 両方の主張とも明快ではないと感じる。質的な問いに対して量的な答えばかりが行き交っているように思う
Appleの論文とGary Marcusの批判に対する良い分析記事だという評価。より詳しい議論として LessWrongの関連記事を推薦
- 本気で気になる点として、Gary Marcusの意見がいまも有効なのか疑問だという話。彼の批判は科学的というより哲学的に感じられ、実際に何かを作り出したり論理が検証されたりしているようには見えないという考え
- lesswrong.comについては、特定の人物（例: Yud）の思想を追従する集団だと見ており、あまり信用していないという立場を表明
LLMは過去に学習した類似の解法があるときには「推論」のように見える結果を出せるが、完全に新しい問題では崩れる、という洞察を共有。厳密な意味での推論ではないが、実用上はかなり有用な水準。解法を繰り返し取り出す能力も、事実確認を何度も提供するのと同じようにかなり役立つと考える。Marcusは技術的には正しい指摘をしているが、説明よりも感情的な論調に偏っている点を指摘
- もし類似解法の反復が本当にそこまでうまくいくならすごいことだが、現実にはこうしたツールは同じ解法すらまともに再現できないことが多く、しかももっともらしい結果を即興ででっち上げる（ハルシネーション）せいで、人が別途入念に検証しなければならない不便さが大きいという経験を共有
- その程度でもちゃんとできれば革命的ではあるが、依然として夢物語の理想論にとどまっている。最近Geminiがごく基本的な教科書問題ですら左右を取り違える回答をした経験に言及
- 「LLMはただのオウムだ」といった類の繰り返しの主張にはうんざりしているという考え。私の経験では、LLMは訓練データになかった完全に新しい問題も推論して解決できると思う。本当にさまざまなケースで試してきたし、関連事例も多い。やり取りしている相手への返答をまとめるなら、まず「推論」と「新しい問題解決」の定義を明確にする必要がある。個人的には推論をひとつのカテゴリと見ており、一般知能と同一ではないと考える。LLMが難問を常に解けないからといって、推論自体が不可能だという意味にはならないと思う。私の考えではLLMの推論能力は全体として弱いが、まったく推論できない、新しい問題をまったく解けないという主張には同意しない。
  1. Next token prediction自体が推論を要する作業だという主張は可能
  2. まったく存在しない架空の言語へ翻訳させるさまざまな実験も成功している。in-context learning、zero-shotに関する研究も多い
  3. 推論能力を検証しようとしてあらゆるチャレンジ・ゲーム・パズルが試されたが、結局はLLMがそれらを一つずつ解いていくケースがある（例: Monty Hall problemパズル, 以前の別のパズル例）。しかもパズル公開前に学習されたモデルさえある
  4. out-of-context reasoningに関する研究も多数ある（例: arXiv論文）追加の反論ポイントとして、
  5. モデルがある程度の複雑性しきい値で失敗するとしても、最新モデルがこうした難しいパズルをある程度解けるという事実自体がすでに非常に印象的。GPT-3.5ではできなかったことを最新モデルはやってのける。推論分野では漸進的な進歩が続いている。より大きく、より賢いモデルほどzero-shot課題にうまく対応し、それが推論能力の向上と相関しているという考え
  6. 「大きいモデル=より良い性能」という主張については、論文自体のデータも存在する。Claude 3.7モデルはDeepSeekよりはるかに良い性能を示し、長いシーケンス全体にわたって安定して解法を維持する。より良いモデル、より多いトークンがあれば、中程度の難易度の問題では急速に成果が伸びる。「難しい問題」だけ解けないからといって、決して推論不能とみなすことはできない。数年前には中程度の難易度すら無理だと言われていたが、いまはすでに状況が変わっている点を強調
- それはむしろ推論の反対だという見解。AI擁護派はLLMがまるで賢いとか推論しているかのように主張したがるが、実際には創造的あるいは知的な推論は不可能。真の推論とは、まったく見たことのない問題に対して革新的な解決法を自力で見つけ出す能力を意味する。LLMは単にデータ内にあった解法を確率的に引き出しているだけで、本物の解決策を推定したり類推したりする機能はまったくないという考え
多くの反論や再反論は実際には粗いもので、5番目の論点にほぼ含められると指摘。記事の核心は、LLMがコードを書いたり論理システムを使えたりするかどうかにある。ツールへのアクセスがないときに空虚な推論（ハルシネーションや誤答）が出ることが、本当に推論の欠如を意味するのか、それとも賢い人間のように「自分にできる限界を認める」AIこそが本来の期待値なのではないか、という問い
- 実際の実験結果を見ると、モデルは100段階までは出力したうえで「これ以上は多すぎるので、解き方だけ説明する」といった形で限界を明確に認めている。ところが、こうした応答も誤答として処理されたケースがある。関連リンクとしてモデルの実際の応答例を参照。たとえば複雑になりすぎると「[個々の試行方法をすべて説明するのは難しいので、代わりに解決方法を記述する]」という形になり、特定モデル（Sonnet）は7個を超えると直接的な逐次推論を飛ばし、一般的な解法アルゴリズムやアプローチだけを説明するように動作する
- 3番を除けば、実際のところ反論の大半が粗いとは思わない。むしろ元記事のほうが多くの藁人形論法を作っているように感じる。1番目の反論がしばしば出てくるのは、「この論文がLLMに推論能力がないことを証明した」という主張があるからだ。しかし著者はしきりにAGIを持ち出し、定義そのものを藁人形化している（「機械は人間より多くのことができなければならない」といった具合）。実際のAGIの定義は、超知能ではなく平均的人間レベルの作業が可能なAIであり、著者はそれを誤解している。ちなみにハノイの塔のような問題では、LLMはすでに平均的人間以上のパフォーマンスを示している。現実的には、一般人は8枚のハノイの塔を何も記録せずに解くことはできないが、LLMなら可能。ただし真のAGIに至るには、モデルがまだ越えなければならない壁が多い。5番目の反論も「Webからコードを持ってこられない」という藁人形論法だが、実際には新規問題でも自分でコードを書いて解く例を挙げられる。こうしたポイントは論文批判ではなく、論文自体の限界に関する事実の指摘だ。この論文は単にLLMの推論上の限界を示しただけで、実際には過大な主張をせず制約を述べた文章だったが、タイトルが刺激的だったため、人々が本文をきちんと読まなかった傾向がある
「子どもでも簡単に解けるパズル」という主張について、実際には8枚ディスクのハノイの塔を記録なしで頭の中だけで解くのは難しいと告白。人間とAIの比較で本当に同等比較になっているのか疑問を呈する
こうした記事が歓迎される理由は、AIに対する過度な誇大宣伝の熱狂をある程度冷ます必要があるからだという点。新しいAIツールを真剣に現実で使うつもりなら、熱狂をひとまず止め、この技術の本当の限界と実態を冷静に見るべき。すごい技術であり、さまざまな領域で実用的ではあるが、無分別なブームの煽動は結局、金儲けに直接・間接につながる利害関係者だけを利する現実がある
- Gary Marcusは「現実直視」ではなく、むしろAI主流派に反対する立場で自分の知名度を高めるタイプだという評価。今回の記事も論理的ではあるが、過去の論文でLLMに「致命打」だと強く主張していた姿勢から変わった例だという。彼の文章は雰囲気としては合理的に見えても、何本も読むと一貫した傾向が見えてくる
- 実際にAIへ投資している人々の中にも、過剰なブームはポンプ・アンド・ダンプや教育・コンサル商売のような事業者にしか有利ではなく、本当に革新を生み出そうとしている人たちは、近いうちにAI冬の時代と向き合う可能性が高いという見方がある
- LLMに対して本能的に警戒する立場。これまでコードを書いてもらった経験の大半は質がひどく、現時点ではあまり好きでもなく、頻繁にも使っていない。しかし時間がたてばかなり有用なツールへ発展するだろうとは期待している。その一方で、Marcusには議論に加わる資格がまったくないと自分は思う。彼の発言は実質的な議論ではなく非生産的な誇張ばかり生み、過度に反AI陣営へ餌を与えている。「respectability laundering: 彼を引用すればもっともな批判になるように見えてしまう状況」とまで評している
- 機械学習におけるtest/train split（訓練セット/テストセット分離）が何かを知っている人から批判を聞きたい、という声。最近のML現場とかけ離れた人がAI能力について語ること自体が、むしろAI恐怖の非常に象徴的な現象だと思うという意見
- 実際にどれほど有用なのか疑問を呈する声。1年以上にわたって「知的労働の生産性が10倍になる」といった主張がされてきたが、本当にそう変わった成果物はどこにあるのかという問題提起。新しいオフィス製品群の登場か、モバイルアプリの大量生産か、本市場の革新か。結局、Ghibliミームや「RETURNS」の流行コンテンツ程度を除けば、実質的な生産物があるのか疑わしいという見方
元の論文が気になるなら原文リンクを共有
- 調査・参考資料として、論文: The Illusion of Thinking – reasoningモデルの強みと限界 (PDF) や A Knockout Blow for LLMs? 論評などもあわせて紹介。ほかに資料があるかという質問
数学の試験で微積分の問題を出すのは、学生に計算結果を出させるためではなく、概念的理解を評価するためだという点に言及。Appleチームも、LLMがハノイ問題を概念的に理解しているかを見ていた。LLMは正解コードを「ダウンロード」できるかもしれないが、新しい問題や動的環境では、概念を理解しないままのコードダウンロードには限界があるという論旨。しかし実際にはLLMはコードをダウンロードするのではなく、自分で「書く」能力を持っている。受験生が一般的な微分・積分プログラムを試験中に書けるなら、それはむしろより高い概念理解の証拠だという主張
- もし受験生がLLMのパラメータ量に比べればごくわずかなノートを参照しただけなら、納得できないという意見
Salesforceの論文にある「エージェントはほぼゼロに近い秘密保持能力しか示さなかった」という引用を重要視
人間が飛行機を作ったとき「鳥ではない」、潜水艦を作ったとき「魚ではない」と批判されたが、それでも進歩は続いたという例を提示。要点は、この道具の潜在力を早く学んで活用するのか、それとも取り残されるのかという選択の問題。助言として、同じ人物の終わりのない否定的主張よりも、「学ぶ姿勢」のほうが将来に適応するうえではるかに実質的に役立つというメッセージ