AI検索：より苦い教訓

(yellow-apartment-148.notion.site)

1 ポイント投稿者 GN⁺ 2024-06-16 | 1件のコメント | WhatsAppで共有

基盤モデルにより長い推論時間を使う**検索（search）**能力を加えると、より大きなモデルの登場を待つのとは別のAI進歩の経路が開ける可能性がある
Leela Chess Zeroは自己対局とディープラーニングでStockfishを打ち破ったが、Stockfishはより小さなニューラルネットワークを強力な検索パイプラインに組み合わせて再び優位を取り戻した
ここでいう検索は、訓練コンピュートではなく推論コンピュートをより多く使って問題解決性能を高める能力であり、チェス的なMCTSやAlphaBetaだけを意味しない
検索は必要な領域にだけコンピュートを集中させられるため、Pfizerのような企業にとってOpenAIのより大きなモデルを待たずに推論コストを自ら支払うという選択肢を生み出す
AI研究に検索が先に適用されれば、より効率的な検索アルゴリズムやモデルアーキテクチャを見つけることに使えるため、自己改善型AIは予想より近いかもしれない

LeelaとStockfishが示した「より苦い教訓」

Leela Chess Zeroは、ルールだけを知った状態から始まり、数十億回の自己対局で学習したチェスエンジンである
- 人間のチェス知識を直接ハードコードせず、自ら学んだやり方で人間のチェス定説を覆す手を指した
- 長期的な犠牲と創造的な手を見せ、世界選手権で優勝した
Leelaの強みはディープラーニングであり、The Bitter Lessonが語る大規模計算と学習の力をよく示している
- 人間が設計した知識よりも、自ら学習した表現のほうが強力になりうるという流れとつながっている
Leelaチームは2018年に、より大きなネットワークがより小さなネットワークより一貫して強いことを観察した
- より大きなネットワークは、明示的な検索なしでも数手先を読んでいるかのような創発的特性を示した
2020年、Leelaチームはより大きなネットワークを学習させるために企業寄付者や知人のGTX 1070などからコンピュートをかき集め、世界大会直前に最大のモデルを用意したが敗れた

Stockfishの逆転：小さなモデルと強力な検索

Stockfishは2010年代を支配したチェスプログラムで、2019年時点では、人間がゲーム知識を数学的手法としてコードに落とし込んだ旧式AIに近かった
Leelaはディープラーニングとtabula rasa方式で2019年にStockfishを破ったが、その後StockfishはLeelaのディープラーニング技法を取り入れて、はるかに小さなモデルを学習させた
- そのモデルは最上位のLeelaモデルより数百倍小さかった
- Stockfishはこの小さなモデルを既存の検索パイプラインに組み込み、たちまちLeelaを圧倒した
この勝利は、より大きなモデルを追求するスケーリング則とは逆行しているように見える
- モデルはより小さかったが、検索アルゴリズムのほうが効率的で、ハードウェアの使い方がうまく、より遠くまで読めたからである
「より苦い教訓」とは、華やかなディープラーニング時代においてもAI検索の力を過小評価してはならないという点にある

基盤モデル検索の定義と現在の限界

GPT-4のような基盤モデルには、この文章がいう意味での検索が欠けている
- GPT-4に1か月かけて問題を考えさせ、より良い答えを期待するようなやり方は現在は不可能である
- 「step-by-stepで考えよ」という指示は性能を高めうるが、リターンは急速に逓減する
基盤モデル検索とは、訓練コンピュートではなく推論コンピュートをより多く使って問題をよりよく解く能力である
- チェス的なMCTSやAlphaBeta検索だけを指すわけではない
- 人間の内省的思考や協働もこの定義に含まれる
AI研究者、経済学者、CEOたちは、基盤モデルに検索を与えることがどれほど近く、どれほど重要かを過小評価しているかもしれない
検索が重要な理由は3つに要約できる
- 実装に必ずしもより大きなモデルスケールが必要とは限らない
- 必要な場所にだけコンピュートを集中できる
- AI研究の自動化を早めうる

スケールは検索の前提条件ではないかもしれない

広く存在する前提は、LLM検索を可能にするにはより大きなモデルが必要だというものである
- Sholto Douglasは、長期的思考を扱うにはLLMの信頼性にさらに多くの「nines」が必要だと述べている
- Leopold Aschenbrennerは、事前学習が検索に必要な材料をすでに含んでいる可能性があり、「もう少しのスケーリング」と追加トークンが必要だと見ている
しかしチェスの事例は、スケールが検索の前提条件だという考えを揺さぶる
- DeepMindは検索なしのチェスアルゴリズムにおいて、先を読む挙動が外部スキャフォールディングなしに自然に現れる点を研究している
- チェスにはすでに検索アルゴリズムがあるのだから、大きなモデルの中で非効率な先読み能力が偶然現れるのを待つ理由は弱い、という論理である
Scaling Scaling Laws with Board Gamesは、訓練時コンピュートを10倍に増やすごとに、テスト時コンピュートを約15倍減らせることを示した
- この結果は単一ニューロンモデルにまで下げても観察される
- StockfishがLeelaより3桁小さいモデルで勝った事例ともつながる
現在のモデルは、検索を可能にするにはすでに十分大きく、もしかすると必要以上に大きい可能性すらある

検索の経済学とAI研究自動化の可能性

検索は、訓練時点と推論時点のコンピュート間でのトレードオフを可能にし、特定ドメインにだけコストを投じられるようにする
Pfizerの例は、検索がドメイン別のコンピュート支出につながる仕組みを示している
- Pfizerは新薬を研究するために、2030年にOpenAIが4桁大きいモデルを出すまで待つこともできる
- あるいは今すぐ、4桁多い推論コンピュートを使って近い能力を得ようとすることもできる
PfizerがGPT-4に年間10万ドルを使っていると仮定すると、2030年のASI級能力に近づくにはAI予算を4桁増やして年間10億ドルにする必要がある
- PfizerのR&D予算はすでに120億ドルである
- 同等の能力を持つモデルを訓練するには、OpenAIには数兆ドルかかる可能性があると見られる
Leopold Aschenbrennerの2030年ASIへの経路は、大規模クラスター、売上増加、大規模な企業借り入れ、政府によるより大きなクラスター建設を経て、モデルが自らAI研究を行えるほど大きくなる流れである
- 検索のない世界では、この経路はもっともらしく見える
検索が機能する世界では、別の経路がありうる
- 既存モデルで検索が機能する
- 大手研究所や政府が検索をAI研究や海外インテリジェンスに即座に適用する
- 推論コンピュートが制約となり、政府や大手研究所が用途を安全保障またはAI研究に限定する
- 検索ベースのAI進歩が、より効率的な検索アルゴリズムやモデルアーキテクチャを発見する
- 検索はより多くの訓練データを必要としないため、データの壁の問題は弱まる
- 知能爆発は2030年ではなく、その翌年にも始まりうるという見通しにつながる
AI研究に検索を使えば、新薬発見とは異なり、その結果がさらに優れたAIを作ることに直接寄与しうる
- 初期の検索強化モデルには、ツールを使ったりテストを実行したりする人間型のエージェンシーがないかもしれない
- それでも超人的な「armchair theorists」のようにアルゴリズム進歩を導けると考えられる
- GPT-4が1兆トークンと1,500万ドルを使って訓練コストを3%削減する、あるいは検索効率を10%高めるアルゴリズムを見つけられるなら、コストを回収できるという計算になる
この予測は2つの前提に依存している
- RLシステムで見られたものに似た性能向上を可能にする基盤モデル検索アルゴリズムが存在する
- 検索はモデルスケーリングよりも、既存資本を知能へと変える効率が高い
2020年代のスケーリング則とは異なり、検索の性能と経済性についての良い証拠はまだ乏しく、ゲーム強化学習の経験に基づく外挿が残っている

1件のコメント

GN⁺ 2024-06-16

Hacker News の意見

探索の有効性は価値関数の品質と連動する。しかし現在の価値関数はドメインごとの特性が強すぎ、新しいドメインにうまく一般化できる価値関数を作れるという証拠は弱い、あるいはないと思う
この記事は実質的に、「チェスには良い価値関数がある」から「AI研究用の探索を可能にする良い価値関数を作れる」へと概念的な飛躍をしている
もちろんそれが実現すれば素晴らしく、聖杯のような話だが、本当に可能なのかは疑問だ。さらに LLM の実行に推論時間コストが1000倍や10000倍も乗ると、費用はとんでもない水準に跳ね上がる
- 一般化された価値関数、つまり LLM ベンチマークはある程度存在すると思う。問題は、推論時に木探索を行えるほど安価な近似がないことだ
  チェスでは駒得が勝利のかなり良い近似で、計算も非常に簡単なので機能する
- 「汎用 AI」のブレークスルーが来ると信じているのか気になる。今述べた点は、「我々はまもなく到達する」と信じている AI 研究者に対して私が懐疑的である理由をよく表していると感じる
  そもそも汎用 AIが正確に何なのかも、うまく定義されていないように思える
- 一部のドメインでは自己評価だけで十分な場合もある。その場合、AI は自分の基準でより高い点を得る回答を探すために何度も試し、反復的に自分で評価することになる
- 良い価値関数に必要なのは、そのタスクの高品質なシミュレーションだけだ
  ドメインによってはこれがよりうまくいく。たとえば数学の定理証明器は、成功したかどうかを正確に教えてくれる
  副次的に、Lean に人間の研究者を助ける探索のような機能を入れられるし、そうなれば数学における AI の進展にも役立つかもしれない
- Stockfish は、与えられた局面で合法手が限られており、負けにつながる枝は早い段階で強く枝刈りできるにもかかわらず、40手先を見るときには数百万個の局面を評価している可能性が高い
  最適な答えを一つ選ぶために、LLM の続きの文を数百万個評価するコストは想像するのも難しい
  LLM に木探索がより筋が通る場面は、単語単位の代替案ではなく、もっと粗い単位の「もしこう考えるなら」という経路を探索する推論かもしれない。それでも生成と評価・枝刈りのコストは容易に手に負えなくなり得るし、このように偏ったアプローチは苦い教訓に合致するというより、むしろ正面から逆らう面もあるように見える
これは一般に解くのが本当に難しい問題で、Yann LeCun のような賢い研究者たちも、AGI を作るうえで探索の役割が何なのかを探っている
Yann の現在の賭けは、Joint Embedding Predictive Architectures、つまり JEPA を表現学習に使って堅牢な世界モデルを作り、エージェントに異なる行動を試させて理論を検証させる方向のようだ
この論文 [0] は彼の潜在的なビジョンをよく整理しているが、もちろん単なる探索 + トランスフォーマーよりはるかに難しい仕事だ
言語が世界を十分うまく表現していて、エージェントがその上を効果的に探索し、新しく有用なアイデアを生み出せるという仮定がある。未解決の問いのように感じる。LLM は何を知っているのか。本当に何かを知っているのか。研究者が突き止める必要がある
現在の LLM が十分に豊かな世界モデルをシミュレートできるなら、探索は実際に有用になり得るが、単にまねをしているだけなら、信頼できない信念の上を探索しているだけだ
だから動画が重要になる。人間は画像の連続から有用な世界モデルを抽出できるという証拠だからだ
言語とチェスは行動空間が事実上離散的なので、損失計算のために入力全体を再構成する生成モデル学習が可能だ。動画に移ると、トランスフォーマーは連続分布上でスケールしなければならないため、有用な予測世界モデルを作るのがはるかに難しくなる
[0]: https://arxiv.org/abs/2306.02572
- AGI が可能だという考え自体が、人間の脳をコンピュータとして見る深く広範な想像から来ていると感じる。だが人間の脳はコンピュータではない
  どれほど複雑なプログラムを書いても、それは依然としてチューリング機械であり、人間は根本的にそうではない
  https://aeon.co/essays/your-brain-does-not-process-informati...
  人間の知能に対する情報処理のメタファーは、いまや日常と科学の両方で人間の思考を支配している。しかし結局のところ、これも私たちが実際には理解していないものを理解するために作った、もう一つのメタファーにすぎず、いつかは別のメタファーや実際の知識に置き換えられるだろう
  同じコンサートでベートーヴェンの第5番を聴いても、私の脳で起こる変化と他人の脳で起こる変化は、ほぼ確実にまったく異なる。各人の独自の経験によって形作られた神経構造の上で変化が起こるからだ
  だから二人が同じ話を聞いても、まったく同じようには繰り返さず、時間が経つほどその反復はさらに異なっていく。話の「コピー」が作られるのではなく、その話を聞いた各個人がある程度変化するのだ
- 「本当に何かを知っているのか？」への答えはイエスだと思う。ただし、完全に虚偽であることも知っていると思っている
  LLM で観察した最大の特徴は、論理と数学をうまく扱えないことだ。「知らない」と答えたほうがよい場合でも、明らかに虚偽の情報を自信満々に提示する。これが意図された設計だった可能性は非常に低いと思う
記事は興味深い前提から始まっているが、LLM の文脈で探索とは何かを定義しておらず、「Pfizer がより多くの推論コンピュートによって今日 GPT-8 の能力に近づける」という言い方も説明されていないため、不十分に感じる。
AI の実務者である自分でも追うのが難しかった。原文が何を意味しているのか、さらに説明してくれる人が必要だ。
チェスエンジンの探索、つまり数手先を読む方式は、結果を順位付けできる目的関数があるから可能に見える。ある潜在的な手が「より良い」かどうかを判断する指標があり、これはたいてい強化学習に固有の性質に近い。LLM にもそのような指標があるのか疑問だ。
- この点は私も非常に混乱している。
  推測するなら、モデルの上位予測トークンそれぞれについて数トークン先まで実行してみて、どの枝が学習データに対して最もよく機能するかを追跡し、その情報を学習に活用するという意味かもしれない。
  しかし探索は推論時点の効率を高めるべきなのに、この方式ではそうならない。
- おそらくそういう意味なのだと思うし、そのような指標はないと考えている。人々は敵対的評価を試みるだろうが、結局は平均的な予測へ収束する可能性が高そうだ。
  それに LLM の推論は安くない。推論コストと学習コストのトレードオフはアプリケーションごとに大きく異なる。推論コストを 100 倍や 1000 倍受け入れる代わりに、学習コストを 10 分の 1 にすることが理にかなう領域はあり得る。
Charlie Steiner は 5 年前に Less Wrong で既にこの点を指摘していた。
GPT-3 を医学教科書の束で学習させ、アルツハイマー病の治療法を述べよと言えば、治療法を述べるのではなく、人間がアルツハイマー病の治療について語ってきた内容を述べるだろう。
論理的オラクルというより、学習データ内の関連性に基づいてもっともらしい話をする直感的オラクルになる、という趣旨だ。
アルツハイマー病の治療が難しいという事実が意味するのは、この設計には欠けているものがあり、それが探索だということだ。ニューラルネットワークが治療法を直接出力することが不可能だという意味ではないが、学習済みモデルの中に既に「アルツハイマー病の治療法」という次元が存在していなければならないように見える。
治療法をまだ知らないなら、現実的な方法は複数の論理ステップを経て論理空間をゆっくり移動し、可能性を徐々に絞り込み、最終的に条件に合うものを見つけることだ。つまり探索問題を解くということだ。
AI がアルツハイマー病の治療法を述べられるなら、明示的に治療法を探索しているか、内部状態が暗黙に探索を行っている可能性が高い。
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- これを GPT に限定せず一般化すると、次のように言えるのか気になる。
  「論理機械を医学教科書の束で学習させ、アルツハイマー病の治療法を述べよと言えば、治療法ではなく、その教科書群がアルツハイマー病の治療について述べていたことを述べるだろう」
  おそらくそうではないと思う。GPT は読んだものを反復し再結合することに概ね制限されているように見えるが、より優れた論理を持つ別のアルゴリズムなら、事実上メタ研究ができる。つまり、これまでのあらゆるアルツハイマー病実験の結果を取り込み、人間が到達したものよりもさらに狭い解決空間まで絞り込めるということだ。
  人間は関連する結果を一度にすべて保持する余裕がないかもしれないが、コンピュータなら可能かもしれない。
  GPT に「段階的に考えよ」と言うと性能が向上するので、必要な論理の何らかの形は確かに備えている。「ここにデータがあるので変換してほしい」もよくこなす。
  限界は論理の質と、その変換を実行できるウィンドウの大きさにある。ただし、学習で記憶したデータは入力トークンのウィンドウよりはるかに多い可能性があるため、部分的な迂回路になり得る。
  両方の能力を備えているなら、スケールできないとは考えにくい。GPT の進化形が既存データの中からアルツハイマー病の治療法を見つける可能性を排除できるのかは分からないし、この作業により適したシステムなら AGI まで必要ないかもしれない。
  もちろん、データの中に解法に必要な構成要素がなければならない。しかし引用文は、データにすべての情報が含まれていて、まだ完成した解法だけがない場合でも、治療法を特定する可能性そのものを排除しているように見える。
探索はほぼ確実に必要であり、兆ドル規模のクラスターを主張する人々は、今ではスマートフォンでも動く超人的なチェスエンジンを作った人たちと話してみる必要がある。
誰かが 100 万ドルのクラスター、あるいは50 万個の 100 万ドルクラスターで、兆ドルのクラスターに勝つ方法を見つけるかもしれないからだ。
チェスについての私の結論は、チェスの分岐係数は幅優先アプローチが不可能になるほど大きくはならないというものだ。中央値の分岐係数、つまり合法手の数は最大で約 40、通常は 30 前後にとどまる。
実戦の局面で見た最多の手数は 147 だったが、その時点ではほとんどすべての手がチェックメイトだった。
囲碁エンジンを超人的にすることが長らく難しかった理由は、分岐係数がチェスよりはるかに大きかったからだ。
MCTS は徹底度が低いため、完全探索が弱点を見つけて悪用できるというのは理にかなっている。問題は幅優先アプローチをより大きなゲームや状況に適用できるかだが、答えは明らかにノーだと思う。
現実世界の状況の分岐係数は、チェスと違って数桁大きい。
ただしチェスと違い、現実では大半の小さな意思決定はあまり重要ではない。ニューヨークからロサンゼルスへ行くときに車で行くか、飛行機に乗るか、歩くかは非常に重要だ。しかし玄関を出るときに左足から踏み出すか右足から踏み出すか、今まばたきするか 2 秒後にまばたきするかは、たいてい重要ではない。
- LLM の分岐係数は、次に取り得るトークン数基準で約5 万くらいだと思う
文章は未来予測としてはかなり捉えどころがなく、自信過剰にも見えるが、試してみる価値はありそう
「探索」は「生成してテストする」ことと棄却サンプリングを一般化したもの。古典的AIである
ドットコム時代以前にAI入門の授業を受けたとき、Prologで探索プログラムを書く方法を学んだ
速度は、候補を1つ生成するのにかかる時間、テストするのにかかる時間、そしてどれだけ多くの候補を試す必要があるかに依存する。これらが遅ければ全体も遅い
人間がループに入った棄却サンプリングの例は、画像生成器を使い、気に入った画像が出るまで別のプロンプトを試し続けることだ。しかし新しい画像を生成するのに時間がかかるため、ループは遅い
画像生成がGoogle画像検索のように高速に動作するなら、本当に意味のある何かになり得る
定理証明とプログラムのファジングは、自動化されていて高速で、良い評価関数があるので、LLMと探索を組み合わせる対象としてよさそうに見える
Googleが、望むLLMに接続できるファザー [1] を公開したようだが、使ってみた人がいるのか気になる
[1] https://github.com/google/oss-fuzz-gen
- 定理証明やプランニングの分野で知られている探索手続きと「評価関数」は、すでに理論的な最適限界に近い
  だから必要なのは新しい評価や探索手続きではなく、そもそも試す理由があることを保証してくれる新しい数学である
  定理証明を例にすると、SLD-Resolutionは帰納推論のための健全かつ完全な自動定理証明手続きである。空間効率のよい実装としては深さ優先探索を使えるが、左再帰でループに陥ることがあり、時間効率のよい実装としてはメモ化を伴う幅優先探索を使えるが、空間複雑性が指数的に大きくなる
  ここには「評価関数」は適用されない。Resolution自体が、形式論理文の真、あるいは真値の確実性を評価する関数の一種だからである
  そしてこれは健全かつ完全で、明確な論理に対して半決定可能である。Church-Turingに反しない限り、それが最善である
  ヒューリスティック探索で効率を改善することはできる。たとえば実務上のSLD-Resolutionの重要な部分である包含関係のNP困難性を避けるために、そうした試みがあり、その際にはより広い意味でのヒューリスティックなコスト関数が入る
  しかし問題が2つある。a) ヒューリスティック探索を使うということは完全性を犠牲にするという意味であり、b) プランニングでは、プランニング問題を緩和してヒューリスティック関数を導く、かなり堅実な方法がすでにある
  教訓は、健全性、完全性、効率性のうち2つだけを選べということだ。LLMのような統計的機械学習アプローチは、既存手法とは別の2つを選べるだけである
  基本的に、探索ベースAIの全体的な性能限界では、もはや周辺的な利益しか得られない地点に来ている。誰かがより良い数学を出してくるまでは、そこにとどまるだろう
- 著名な数学者であり、コンピュータ支援定理証明の強力な支持者であるTerence Taoは、機械学習が定理証明器の領域で新しい道を開くと見ている
Leelaと現在のStockfishが探索しているゲーム空間は理解しているつもりだ。しかし著者が、LLMがどのような可能性空間を探索していると見ているのか分からない
1. 書かれた単語、2) 数学・強化学習・材料科学モデル、3) チェスのゲーム空間のような、より小さく形式化された空間、これら全部なのか、それとも別の何かなのか不明だ。どこかで明確にしていたのに見落としたのかもしれない
- より良い探索アルゴリズムを見つけるように、探索アルゴリズム自体に探索してほしいように見える。つまり自己改善である。そうなれば、一部のより狭いドメイン制約は消えるかもしれない
LLMががん治療法を発見する前に、まずより扱いやすい問題である「神のチーズケーキ」を発見させてみようと提案する
公正なシェフ100人が、これまで食べた中で最もおいしいと判定するほどおいしいチーズケーキである
LLMは、はるかに組合せ的に制限された「チーズケーキ空間」を知的に探索して、できるだけおいしいチーズケーキのレシピを見つけるだけでよい
しかしLLMはチーズケーキを焼けず、仮に焼けたとしてもその味を評価できない
AIが「神のチーズケーキ」問題を解くまでは、AGIについては皆もう少し落ち着いたほうがよい
- このクッキーはとてもおいしかったが、神の域ではなかった。少し投資して、より現代的な手法を使えば、かなり良いレシピを作れるし、もしかするとどんな人間よりもうまくできるかもしれないと思う
  AIが非常に競争の激しいベーキング大会で優勝するレシピを作ることはできそうだ。ただし審査員100人全員に勝つのは、誰にとっても不可能である
  https://static.googleusercontent.com/media/research.google.c...
- 答えが「意味のある答えを出すには2週間と5000ドルが必要です」だとしたら、どう受け止めるのか気になる
- 純粋にコンピュータ上で実行されるLLMの限界の中だけでも、LLMが本当に素晴らしい短編小説や良い広告コピーを書けるなら、世界が変わる出来事である
- TikTokがこの問題のデジタル版である
- LLM支援プログラムでチーズケーキのレシピを試行錯誤し、審査員団に評価させれば、史上最高のチーズケーキが生まれないと思う人がいるのだろうか
  焼く部分はロボティクスなので比較としてはやや公平さに欠けるが、すでにある程度は可能である
筆者が気づいていない最大の問題は、ここで必要になる計算資源がどれほど大きいかという点です。
この記事は、猿に時間を与えればShakespeareを書く、という話と同じです。もちろん正しいのですが、探索空間は扱えないほど大きく、たとえどこかに答えがあっても、その混沌の中から見つけ出せません。
1年以上フルタイムで、枝刈り・進化型LLMシステムを作っています。
さまざまな「探索」または「探検」アルゴリズムを作ってみました。問題は、何段階か進むと、もともと生物学を研究または実行せよという課題を与えられたエージェントが、戦艦の話をしていることです。実際に以前の作業で出た例です。
単一ステップだけが、探索関数が実際に機能するほぼ唯一の状況です。多段階エージェントでは、可能性が非常に速く無限大へ爆発します。
単一ステップにも問題があります。たとえば、コーディング問題を解けというゼロショットの質問を1000回実行すれば、より良い解を見つける助けになるかもしれませんが、それは探索空間が制限されているから可能なのです。その制限は良い点です。
最近、複数のLLMモデルで、1つの入力プロンプトを入力設定だけ変えて1万回推論するテストをしました。個々のプロンプトに無限の応答可能性があるわけではありません。制限されています。だからこそ現在のLLMとして機能できているのです。
エージェントがうまくいかない現象は、この問題の一例です。単一ステップの探索空間も巨大ですが、エージェントが1ステップ動くたびに指数関数的に大きくなります。
この問題を解くためのツールやシステムを作っていますが、大規模探索は「AIモデルのサイズを100倍にすれば解決する」と言うのと同じくらい遠くに見えます。
自律性は知能や推論と同じではありません。
「Leela Chess Zeroはルールだけを知った状態で始めたのでzeroと呼ばれた」という表現はよくありますが、誤りです。
Leelaとその系譜には、性能に不可欠なもう1つのチェス特化の知識があります。それは、チェスのゲームをゲームツリーとして表現するゲーム世界モデルです。各プレイヤーの手番ごとに1 plyへ分かれる構造です。
このゲームツリーをminimaxやMonte Carlo Tree Searchのような敵対的探索アルゴリズムが探索します。私の理解では、LeelaはMCTSを選んでいます。
ゲームをゲームツリーとしてより正確にモデル化する方法は、チェスだけでなく多くのゲームに適用できます。ただし、チェスエンジンで使われる特定のゲームツリーは、チェスに似た2人零和完全情報ボードゲームに合った形です。
他の種類のゲームには、別のモデルと別の探索アルゴリズムが必要です。たとえばPokerとLibratus [1]を見るとよいでしょう。
こうしたゲームツリー、つまりゲーム世界モデルは、優れた性能が目標であるなら、現時点では取り除けません。本文は無探索アルゴリズムに触れ、その核心的な限界、つまり「なぜか？」に短く触れています。
これこそが苦い教訓に対して抱く問題意識でもあります。何をドメイン知識、つまり理論としての「モデル」と見なすかを、都合よく選んでいるからです。
Rodney Brooks [2]らも述べているように、畳み込みニューラルネットワークは位置不変性を確立するために畳み込み層を使ったおかげで、画像分類を支配しました。それは人間が発明した機械視覚モデルです。
ゲームツリーが人間の発明したゲームモデルであるのと同じで、AIと機械学習でこれまで行ってきたことの大半も同様です。人間が世界、環境、ドメイン、プロセスのモデルを作り、コンピュータがそのモデルで計算し、ときにはチェスや囲碁のように人間を上回る、あるいは少なくとも手作りの解法では到達できない結果を出します。
学ぶべき教訓は別にあります。人間のモデル + 機械による計算は、過去80年間、AIのあらゆる難問を解いてきました。そして私たちは、これと少しでも異なることをする方法をまったく知りません。
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- 観察だけで世界モデルを作るアルゴリズムは、まだ見たことがありません。手がかりは見ましたが、人間のようなレベルではありません。
  いつかは来るでしょう。興味深い時代を生きています。

AI検索：より苦い教訓

LeelaとStockfishが示した「より苦い教訓」

Stockfishの逆転：小さなモデルと強力な検索

基盤モデル検索の定義と現在の限界

スケールは検索の前提条件ではないかもしれない

検索の経済学とAI研究自動化の可能性

関連記事

1件のコメント

Hacker News の意見