ゲームを超えて現実まで学ぶAI：ジョン・カーマックの現実基盤強化学習への挑戦

(twitter.com/ID_AA_Carmack)

17 ポイント投稿者 GN⁺ 2025-05-24 | 1件のコメント | WhatsAppで共有

John Carmackの「Upper Bound 2025発表」の準備ノート要約とスライド
ジョン・カーマックはId Software、Oculus、Keen Technologiesなどを経て、現在は強化学習ベースのAGI研究に集中している
LLMを志向せず、動物のように環境と相互作用しながら学ぶ継続的・効率的な学習に関心を置いている
古典ゲームAtariを基盤に、リアルタイムのカメラ・ジョイスティック入力で学習する物理的RLシステムを構築した
速度・遅延・継続学習・忘却防止など、RLシステムが現実に近づくために解決すべき技術課題を幅広く提示している
CNN構造、報酬表現、探索戦略などについて経験に基づく鋭い洞察を共有し、既存の慣行に疑問を投げかけている

スライド: https://docs.google.com/presentation/d/…
準備ノート: https://docs.google.com/document/d/…

Quick Background

Id Softwareの創業者として、QuakeはGPUの発展を促し、AI分野にも間接的な影響を与えた
Armadillo Aerospaceで垂直離着陸ロケットの研究を10年間行った
Oculusで現代VR技術の基盤を構築
Keen Technologiesを設立し、強化学習に集中しながらAI研究に専念中
リチャード・サットンとともに研究しており、強化学習に対する哲学を共有している

Where I thought I was going

Not LLMs

**LLMは「学習なき知識」**であり、自身が志向する相互作用ベースの学習とは哲学が異なる
LLMがRLを代替する可能性は開かれているが、動物のように環境から学ぶ方式により魅力を感じている

Games

長年のゲーム開発経験を活かし、ゲームを実験環境として活用
DeepMindのAtari研究のように、ピクセルベース入力だけで学習できる可能性を探った
しかし、膨大な学習フレーム数と効率性の問題は依然として課題
マルチタスク、オンライン、効率的学習は未解決のまま

Video

当初はTVのような受動的な映像学習を検討していたが、ゲーム学習そのものに集中することにした

Missteps

低レベルすぎる層（C++ CUDA）から始めてしまい、PyTorchへ移行して実験速度を向上させた
AtariではなくSega Master Systemから始めたが、比較資料が不足していたため切り替えた
映像ベース学習は保留、ゲーム内学習だけでも十分に課題がある

Settling in with Atari

商用ゲームの多様性は研究バイアスを減らせる利点がある
ALEを直接使うことを推奨（Gymなどのラッパーは問題を起こす可能性がある）
最新モデルは大半のゲームで高得点を出せるが、「Atari 100k」のようなデータ効率の高い学習のほうが重要
環境の決定論的な挙動はSticky actionの導入などで克服する必要がある

Reality is not a turn based game

現実はエージェントを待ってくれない → 非同期処理と遅延の考慮が必要
単一環境での学習失敗はアルゴリズム自体の問題を示唆する
速度: 高速に評価できる方策が必要（CUDA graphの活用など）
遅延: RLアルゴリズムの多くは遅延に脆弱 → 方策適用の遅延を反映する構造が必要

Physical Atari

物理環境でのAtari学習システムを構築
実際のジョイスティック操作、画面を見るカメラ、RLエージェントがリアルタイムで動作
複数のゲームをテストしながら、スコア認識・行動遅延・操作ミスなど現実の問題を考慮
ジョイスティック動作は不安定で、スコア認識が最も難しい
一部のゲームはスコアが見えにくいため除外した

Sparse rewards / Curiosity

RLは報酬が疎な環境に弱い → 内発的報酬、人工的な好奇心の活用
ゲームスコアそのものを報酬の代わりに使えるかという探索も並行して進めている
ゲーム間の切り替え、新しいゲームへの興味の維持といった人間の行動パターンの再現も試みている

Sequential multi-task learning

連続学習環境における忘却問題（catastrophic forgetting）は依然として深刻
人は古い技能を覚えているのに、現在のモデルは過去のゲームを再訪すると性能が急落する
記憶保持、学習率調整、重みのsparsityなどで改善を試みている
Task IDの使用は不正行為と見なし、暗黙的に切り替える必要がある

Transfer Learning

多くを学習したゲームを通じて、新しいゲームをより速く学べるようにすべき
OpenAIのSonicチャレンジは結局from scratch学習に戻った
GATOなどでは**負の転移（negative transfer）**が発生した
「ゆっくり学ぶことで速く学ぶ」戦略が必要かもしれない
新しいベンチマーク提案: 複数のゲームを順番に繰り返しながらスコアを評価

Plasticity vs generalization

汎化は違いを無視することで、可塑性は新しいパターンを認識すること → 両者は衝突しうる
汎化は理論的基盤が弱く、CNNのinductive bias程度にとどまる
強化学習の価値関数は汎化の産物であり、非常に敏感

Exploration

ランダムな行動選択の限界 → たった一つのミスで生存が左右される
行動空間の構造化、confidenceベースの方策などを試している
時間単位の行動についても検討が必要 → 60fpsでの学習は難しさが大きい

Recurrence vs frame stacks

Atariではframe stackが効果的だが、recurrent構造のほうが脳に近い
Transformerはバッチ学習には強いが、一般的なrecurrent online学習は未完成

関数近似中心の学習

NNは価値推定、汎化、確率平均、方策改善を同時に行う
すべての重み更新はすべての出力値に影響する
初期化・活性化関数・オプティマイザの組み合わせが性能に重大な影響を与える

Value representation

古典的なDQNのreward clampingは学習安定化に有効
Categorical表現、MSEの活用、MuZeroのvalue圧縮など多様なアプローチがある
ゲームごとにスコア範囲が異なるため、マルチタスク学習で問題になる

Conv Nets

CNNは依然としてRLの基本構造
大規模画像ネットワークはRLでは性能が低下する（例: ConvNeXT）
カーネル構造の変更、パラメータ共有、Isotropic CNNなどを実験
DenseNet、Dilated CNNなど効率的な情報フローを追求
生物学的構造に似たCNN改良も試みている

1件のコメント

GN⁺ 2025-05-24

Hacker Newsの意見

Carmackの講演や文章を見るたびに、いつも興味深い体験だと強調したい。今回のノートでも、エンジニアとして思考過程を丁寧に記録するやり方が印象的だった。研究の方向性としてリアルタイム学習に集中している点には疑問があった。Carmackはオンライン学習をリアルタイムで進めるつもりだと理解している。優れたデモや最適化の経験を活かせる面白い挑戦ではあるが、最近の教訓や研究の流れを見ると、リアルタイム推論および学習が可能な計算資源が整っていない状況では、結果は限界に突き当たるのではないかと思う。脳はAtariゲームを解ける唯一の例であり、人間の脳の計算能力すら明確に算定されたことはない。そうした文脈では、あえてリアルタイム制約を置くより、学習効率に集中するアプローチのほうがよいのではないかという genuine な問いだ。もちろん制約の中で作業することで得られる価値は多いが、ジャンプするクモが10万ニューロンで複雑な問題を解いている例もあり、予測は難しい
- 90年代初頭にCarmackが取り組んだ初期の3Dグラフィックスやリアルタイムレンダリング研究の当時、ワークステーションベースのオフライン専門家たちも似たようなことを考えていたのだろう。Carmackの最大の強みは、常に限られた資源の中で極限の成果を出す能力にある（id Software、Oculus、Armadillo Aerospace など）。大規模組織や既存技術に縛られると、かえって成果が落ちるという印象がある（Bethesda-idやMetaを離れたのもそのためだと思う）。リアルタイムに集中するCarmackのスタイルは理解できるし、現在のAIブームにおける、単に計算資源で押し切るアプローチをあまり好まないのだろう。投資家の金でLLM学習のようなことに没頭していないのは幸いだ。理想を言えば、昔のように優れた仲間たちとともに先端技術を大衆化する形で（例: 3Dグラフィックスの普及）革新を生み出してほしい
- 発表ノートの一文を引用すると、「AIによる身体を持つAGIがもうすぐ来ると思うなら、そのダンシング・ヒューマノイドロボットにジョイスティックを持たせて、見たこともないビデオゲームを学習させてみろ」という事実確認が必要だという提案だ
- 人間や動物は膨大な生得的能力と事前知識を持っているので、新しいことを学ぶのがはるかに容易な構造になっていると強調したい。これは計算能力の差というより、学習の出発点そのものが違うという話だ
- 人間の脳の計算容量は明確ではないという意見については、実際にニューロンの信号伝達速度を測ると、連続的につながったニューロン数には上限があり（約100段階）、そこから推測するに、人間の認知処理は思ったほど複雑ではない。もちろん並列性やフィードバックループは多いだろうが、結局AGIアルゴリズムが発見されれば、2025年の普通のハードウェアでリアルタイムに動かせる「ミニ」版が出てきてもおかしくないと思う
関連する直接リンク集:
- プレゼンテーションスライド
- テキスト文書
OpenAI内部者の興味深い返信があったので共有したい: Xリンク
- 正直あまり面白くない反応だ。部外者の意見を無視する曖昧な態度は、学問的不安に由来する典型的な振る舞いに見える。具体的な説明や根拠がなく、議論の助けにならない。「OpenAI内部者」対「John CarmackとRichard Sutton」なら、どちらにつくかは明らかだ
- Carmackがその投稿に直接返信している: Carmackの返信
- 一部の人はTwitter全体のスレッドを見て評価しているし、ログインしていない人は最初のツイートしか見られないため、単なる無視のように感じられる
- 「何らかの教訓を学んだ」と言いながら、その教訓が何なのかは結局教えてくれないのが面白い
- "they will learn the same lesson I did" というツイートを見て、「Altmanを信じるなという意味か？」という冗談を付け加えたくなる
CarmackがAIに集中すると聞いて本当に期待していた。動画が公開されるのを待っているが、スライドを見る限り、Atariゲームをプレイできるシステムを作ったようだ。面白いプロジェクトだと思うが、ほかにも論文や成果物が出るのか気になる
- AtariゲームはRL（強化学習）研究で標準ベンチマークとして広く使われている。参考資料: Arcade Learning Environment. 目標は、さまざまな課題に一般化可能なアルゴリズムを開発することだ
- Atariゲームをクリアしたり高得点を出したりするエージェントはすでに多いが、まだ道のりは長い分野だ。修士論文では、少ない相互作用で学習する方法を研究しており、これを実際のロボットに適用できれば、ロボットが数百年も歩いて転び続けなければ行動を学べない事態を防げる。より高次の一般化、つまり複数のビデオゲームを学び、新しいゲームも直感的に学べるような原理を研究した例はまだ少ない
- 今回のプロジェクトの目標は、単にAtariゲームを「クリアする」ことではなく、より複雑なゲームや物理世界に適用できる汎用的な方法論だ。ただ、研究上のインサイトとしては、現段階で複雑なゲームを導入するより、Atari環境をリアルタイムなどの形に改変してテストするほうが効率的だと見ている
- オープンソースで公開予定なのは素晴らしい。物理コントローラとカメラを使って、ラップトップGPU上でリアルタイムにプレイするのは新鮮だが、それ自体が革新的かは疑問だ。もしサンプル効率や一般化の面で既存研究より優れているなら、本当に驚くべきことだろう
- 私の願いは、ゲーム内のNPCがもっと賢くなってほしいということだ
スライドの冒頭にあるように、VR環境でこうした研究をやっていたらどうだったのかという惜しさがある。JPEGカメラフィルタ、物理シミュレーション、ノイズ、ロボットシミュレーション環境までVRでうまく実装できる力があるなら、Carmackこそ適任だ。実機ロボットを使うのは学習時間の面でとてつもないボトルネックになる
AGIがあえて物理的な身体を持つ必要があるのはなぜなのか、なぜ私たちは優れた知能を創り出したら自分たちの車を運転し、家を掃除してくれることを期待するのかと考えさせられる。むしろDan Simmonsの『Hyperion』のように、AGIがクラウドへ消え、人間をほぼ無視するシナリオのほうが現実的だ
- 必ずしも永遠にそうである必要はなく、人間だって身体を脱ぎ捨てられるならいつでもそうしたいはずだ。恒久的に物理インターフェースに閉じ込められるのは不利な面がある
- SFでよく語られる理由の一つは、「AGIが自分の身体の電源ボタンを押せないようにする」ためでもあると思う
AGIについて議論するには、「概念」とは何かすら明確でないと感じている。ある分野の概念を別の分野で使う思考過程、脳がアイデアを組み合わせて抽象化する過程が何なのか、私たちはまだ分かっていない
- 物事が繰り返し現れたら名前を付け、概念とは繰り返される思考パターンのことだ。抽象、関係、メタファーはいずれもドメイン間でパターンを移すための道具だ
一つの実験的な問いとして、もしOpenAIのAGIが本当に間近なら、なぜIveが運営するハードウェアスタートアップの買収に時間や費用を浪費するのかと聞いてみたい。ロボティクスに挑戦するにせよ、本当に最高のAGIなら、多くの企業がハードウェアやソフトウェアのライセンスを求めて殺到するはずで、それだけで無限に近い収益を生み出せる
- AGIだけでは不十分だ。ChatGPTインターフェースにAGIを入れても、現実世界に影響を与えるにはAGIが「どこにでも」存在していなければならない
- AGI開発に近づいている企業なら、政府や軍の規制から隠すために、意図的に情報を出さない可能性も高い。AGIの先取りにはリスクが大きい
- AGIが製品設計まで可能だという方向性を示したい
Carmackが選んだ研究は正しいと思う。今のように言語だけで学習させる段階を超えるべきだ。AIには物理性が必要だ
- AIを本格的に言語以外の多様なデータで学習させることは、すでに数年前から進んでいる。最新のフロンティアモデルは、テキスト、音声、動画、画像などを一つのモデル内でマルチモーダルに訓練している（Gemini、GPT-4o、Grok 3、Claude 3、Llama 4 など）。すべての入力はトークン化され、共有埋め込み空間で処理される
- AIに物理性が必要だという観点では、実際Carmackも以前は、シミュレーション環境のほうがAI開発に適しており、物理環境は現実的に非効率だと強調していた点が興味深い
- Nvidiaも同じ意見を持っている。Jim Fanが「物理的チューリングテスト」と embodied AI の未来について語っている。 Jim Fan講演動画. その中でも、堅牢なシミュレーション環境を回すために莫大な計算資源が必要だと強調している
「私は研究コミュニティの新参者なので気を使った」という表現から、論文投稿の可能性を示唆しているように見える
- 今回のプロジェクトが製品企業ではなく、研究のための試みであることを明らかにしている

ゲームを超えて現実まで学ぶAI：ジョン・カーマックの現実基盤強化学習への挑戦

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

関数近似中心の学習

Value representation

Conv Nets

関連記事

1件のコメント

Hacker Newsの意見