- 最近は大規模言語モデル(LLM)などに見られるように、強化学習(RL)のスケーラビリティが注目されている
- 実際にAlphaGoやLLMなどは強力な性能を示すが、主に on-policy RL アルゴリズムが使われている
- Off-policy RL の代表的アルゴリズムである Q-learning は、長い問題(horizon)では 累積バイアス の問題によりスケーラビリティが低い
- 実験の結果、データと計算資源を大幅に増やしても、標準的な Q-learning 系アルゴリズムには複雑な長期課題で性能の限界が存在する
- horizon 問題を緩和する hierarchy 手法 など局所的な解法しかなく、根本的にスケール可能な新しい off-policy RL 目標 が必要である
RLはスケール可能か?
- 最近の 言語モデルの次トークン予測、拡散モデル、コントラスト学習方式 などは、データと計算資源を増やすほどよくスケールする目標である
- ゲーム、数学、コーディングなどで RL も強力な成果を上げており、その多くで on-policy RL アルゴリズム(例: PPO, REINFORCE など)が活用されている
- On-policy RL は常に新しい roll-out、つまり 最新ポリシーで直接生成したデータ しか使えない
- この方式はシミュレーションや LLM では大きな問題にならないが、ロボットなど実環境では非常に非効率的 である
- たとえばロボット実験では、十分なデータを得るまでに 数か月 を要し、人の手動介入が必要になる
Off-policy RL の登場
- Off-policy RL は 過去のすべてのデータ を再利用できるため、sample efficiency に優れている
- 代表的には Q-learning が広く使われ、リアルタイムの四足歩行ロボットの歩行などで成果を示している
- Q-learning は temporal difference(TD)loss の最小化を利用し、ほぼすべての off-policy RL がこの原理に従う
- 現実の問題に RL を適用するには、結局 Q-learning もスケール可能なのか? という問いが核心になる
Q-learning のスケーリング限界
- 著者は 現在の Q-learning は長い horizon(100 decision steps 以上)の問題が現れるとうまくスケールしない と主張する
- ここで「スケーラビリティ」とは、問題の深さ・難しさ(
depth)が増えても、データと計算資源の投入だけで解決可能か を意味する
- 複数の論文で実験的に示されているように、単に処理可能な問題数(
width)だけを増やす話ではない
- 著者の主張は、Q-learning 系は深さ軸(difficulty)でのスケーラビリティが低く、アルゴリズム革新が必須である というもの
- 主な根拠は2つあり、1つは経験的成功事例の欠如、もう1つは最近行った体系的実験である
経験的根拠
- AlphaGo、AlphaZero、MuZero はいずれも model-based, on-policy RL であり、TD-learning 系ではない
- OpenAI Five も PPO などの on-policy 手法である
- LLM 向け RL も大半は 方策勾配系 on-policy の派生手法が主流である
- Q-learning や類似の off-policy RL には、AlphaGo や LLM 級の大規模な実世界成功事例が ほとんどない
- 著者は複数の論文および実務事例を調査した結果、Q-learning ベースの大規模成功事例を知らないと述べている
Q-learning の限界要因: Horizon と累積バイアス
- Q-learning では ブートストラップした(推定値で予測値を生成した)TD ターゲットが常にバイアスを持ち、その バイアスが time-horizon に沿って累積 する
- 一方で、トークン予測、拡散、コントラスト学習など他のスケーラブルな目標には、予測ターゲットに累積バイアスがない
- Horizon(意思決定の長さ)が長くなるほど、累積誤差のために Q-learning の性能スケーリングは制限される
- これを緩和するため、discount factor を小さく設定する例が多い
- Policy gradient など on-policy の価値推定方式は、GAE などの手法のおかげで horizon 問題の影響が比較的小さい
実験によるスケーリング限界の検証
- 最近の論文では ultra-long horizon 課題のために OGBench などで数千 step に及ぶ難しい task を設計した
- 環境内で「ほぼ無限大」のデータと強力なモデルを用い、表現学習の神経網負担緩和などノイズ要因を最小化した
- 既存のオフライン RL(BC, IQL, CRL, SAC+BC など)はいずれも 超大規模データセットでも複雑な task を学習できなかった
- データ量、モデルサイズ、学習時間、ハイパーパラメータなどあらゆる変数について ablation test を行ったが、性能限界の克服には失敗した
- ただし、horizon(意思決定の長さ)を短縮する手法 だけは確実に性能スケーリングに効果があった
Horizon 短縮手法の効果
- n-step return、階層型(hierarchical)RL など horizon 短縮 だけが RL スケーリングに決定的な効果を示した
- horizon 短縮は単なる学習加速ではなく、最終性能そのものも飛躍的に向上 させた
- しかしこの方式は 問題の根本解決ではなく、horizon を定数倍だけ減らすにとどまる
- horizon curse を解消する 新しいアルゴリズム的アプローチ が必要である
新しいスケーラブルな off-policy RL 目標の必要性
- これまでの研究によって、単にデータやモデルサイズを増やすだけでは horizon curse を根本的に克服できないことが示された
- 究極的には 任意の長さの長期問題にもスケール可能な off-policy RL の変種 が必要である
- この目標が実現すれば、ロボット、LLM、多様な意思決定 agent など、より幅広い実世界問題の解決が可能になるだろう
今後の研究アイデアと提案
- 2段階の hierarchy を超えて、任意長の horizon に対応できるシンプルでスケーラブルな新しい階層構造を提案できる可能性がある
- モデルベース RL(model-based RL) は、教師あり学習ベースのモデリングと on-policy RL の融合を通じて scalable である可能性がある
- TD learning を完全に排した quasimetric RL、contrastive RL など新しい系統の探究も有用かもしれない
- 作成した評価環境とコードを公開し、多様な新しい RL アルゴリズムの スケールテスト用ベンチマーク として活用できる
謝辞
- 論文およびポストに協力やフィードバックを提供した複数の研究者に感謝を述べている
- 本内容は [Horizon Reduction Makes RL Scalable] 論文などに基づくものであり、著者個人の見解であることを明記している
1件のコメント
Hacker Newsの意見
Q-Learningのスケーラビリティの限界には、ブログで述べられている以上に大きな理由があると思う。エージェントが扱うべき状態数は、ホライズンが増えるにつれて通常は幾何級数的に増加する。これにより、それらの状態を扱うQを学習させるには、必要なデータ量も幾何級数的に大きくなる。一方で on-policy 学習は重要な状態だけを学習するため、幾何級数的な状態空間であっても、学習データは必要な箇所にだけ集中し、相対的に問題を単純化する
記事で述べられている Q-learning の overapproximation bias の分析には同意する。Q-learning の Max 演算子は、ノイズを時間軸に沿って増幅する傾向がある。この論文のように、bias 緩和手法が RL エージェントの性能改善に成功した例もある。ネットワークがあまり訪れない状態では、この現象がより起こりやすいという研究結果もある。状態数が幾何級数的に増えても、学習可能な構造があれば性能を出せるのがディープラーニングの強みだ。重要なのは適切な学習目標を設定することで、記事では Q-learning はその点に限界があると主張している。MuZero のようなモデルベース RL システムが解決策になり得るのか気になる。MuZero は過去の trajectory を再分析して学習効率を高め、Monte Carlo Tree Search (MCTS) は複数ステップを展開することでホライズンを短縮する原理的な方法だ。MCTS の中でも Max 演算子の問題は起こり得るが、探索が深くなるほど、その問題は相殺されやすくなる
このスレッドが役に立つかもしれない。完全な非専門家の視点では、ある種のタスクは「深さ」を持っていても、なお均質性を持っていると見なせることがあり、その場合はサンプル品質が多少低くても学習可能だ。私はそうしたタスクを「ergodic」と呼びたくなる。しかし、必ずしもそうではないタスクも確かに存在すると思う
これは、通常のグリッド・モンテカルロ積分と重要度サンプリングによるモンテカルロ積分の違いに似ているのだろうか
Majorana-1についての感想の共有
ブログで Decision Transformers や Trajectory Transformers のようなオフライン手法に触れられていないのが惜しい。これらは attention メカニズムのおかげで credit assignment 問題を回避し、長いホライズンのタスクで良い性能を示す。多くの RL 研究者は、これらを「本当の RL」ではないと見ているが、その理由は context window の外に credit を割り当てられないからだ。したがって、無限ホライズンのタスクには適用が難しいという評価が多い。しかし、context window が100万を超えるなら、実際には大きな問題ではないのかもしれない。Decision Transformer 論文、Trajectory Transformer 論文を参照
RL の核心をうまく要約していると思う。ごく簡単に言えば、動き続けながら目標を追い、その目標の位置も自分がどう動くかによって変わり続ける状況だ。つまり、value-based RL には絶対的な正解(ground truth)がなく、自分の推定値だけで両側を合わせるゲームになっている。しかし、私はそれを絶望的だとは思わない。むしろ RL はもうすぐ実用化されると考えていて、これまで信頼できる world model や dynamics function が不足していたことが大きかった。今はその面でも大きな進展が起きている
この論文/ブログは、すでに RL の知識がある人を対象にしている。RL をもっと深く学びたいなら、David Silver (Deep Mind) の入門講義がおすすめ
off-policy 学習の根本的な限界は、効果の低い初期探索データが、より進んだ方策の学習にはあまり役立たない点にある。たとえばチェスにおける初歩的なミス、意味のない手、パズルを解けない行動などだ。データが off-policy になるのは、その行動が現在の方策、つまりエージェントが実際に選ぶであろう行動から外れた時点だ。だから結局、この問題の本質は、より良い一般化とサンプル効率の向上にある
人間が長期的なタスクを学ぶときは、反復訓練を通じて作業全体を短いホライズンのサブタスクに分割して習得し、後からそれらの部分技能を階層的に組み合わせる
人間は実際には on-policy と off-policy の両方の学習を活用している。自分で行動の結果を探る過程では on-policy 学習をし、他の熟練者の実演を観察しながら off-policy でも学ぶ。ただし人間は、良い行動と悪い行動を見分けて「良いもの」だけを選り分けて学習する点が RL と異なる。一方、ほとんどの off-policy RL では悪い行動もデータとして使われるため、全体の学習速度の低下につながる
ブログの内容は気に入ったが、説明されていない略語や専門用語が使われていて、より広い読者にとっての有用性を下げているのが惜しい。用語や略語はきちんと説明して、アクセスしやすくしてほしい
こういうブログ記事のように、内容は非常に充実しているのに事前知識を多く要求して敷居が高い場合、AI ツールは説明や平易な解説に大いに役立つ。最近はブラウザベースの Dia を使ってみたが効果的だった。他の AI モデルにコピー&ペーストしても、全体を簡潔にしつつ、気になる点の解説を得られる
この種の記事は、明らかに RL 研究者向けに書かれていると感じる。結論は「誰か Q-learning をスケーラブルにする方法を見つけてくれ!」という感じだ
むしろ、そういう点がこの記事をよりすっきりさせていると思う
Q-Learning のような off-policy 手法の強みは、準最適なデータ(あまり良くないデータ)しか得られなくても、最終的には最適解に収束できる点だ。たとえば、何の戦略もないチェスの対局データだけを集めて Q-Learning の入力に使っても、最終的には最適方策を学習できる(もちろん良いデータの場合よりは遅いが)