- Geminiモデルを統合したSIMA 2は、言語命令に従う段階を超え、ユーザーの目標を理解し、自ら思考しながら相互作用する3D仮想環境向けAIエージェントへと進化
- 600以上の言語ベースの行動を実行していた前バージョンとは異なり、推論・対話・自己改善機能を備え、新しいゲームでも目標指向の行動を実行
- MineDojo、ASKAなど学習していないゲームでも高い汎化性能を示し、人間プレイヤーに近い課題達成率を実現
- 自己改善ループを通じて、人間のデータがなくても自ら経験を蓄積し、性能を向上させる構造を実装
- こうした進展は、**汎用身体性知能(embodied intelligence)**およびロボティクス応用へとつながる基盤を整える
SIMA 2 概要
- SIMA 2はGoogle DeepMindが開発したGeminiベースのAIエージェントで、3D仮想環境で人間と一緒にプレイし、学習するシステム
- 初期バージョンのSIMAは言語命令を行動へ翻訳することに重点を置いていたが、SIMA 2は目標推論、対話、自己改善機能を追加
- このモデルは**AGI(汎用人工知能)**への前進を示しており、ロボティクスおよびAI身体性研究に重要な意味を持つ
Reasoning(推論能力)
- SIMA 1は「左に曲がる」「はしごを登る」など600以上の命令を実行していたが、ゲーム内部のメカニズムにアクセスせず、画面を見て操作する方式だった
- SIMA 2はGeminiモデルを内蔵し、単純な命令実行を超えて目標を理解し、論理的に思考できる
- 学習データは人間のデモ映像とGemini生成ラベルを混合して構成されており、エージェントは自身の行動計画と手順を説明できる
- テストの結果、ユーザーはSIMA 2との相互作用を命令ではなく協業として感じており、さまざまなゲーム環境で学習と評価が行われた
- Geminiの推論エンジンにより、複雑な3D環境で知覚・理解・行動が統合された身体性AIを実現
Generalization(汎化性能)
- Gemini統合により、複雑で微妙な命令の理解と実行能力が向上
- 学習していないゲーム(例: ASKA、MineDojo)でも高い成功率を示し、人間レベルに近い課題達成率を実現
- 「採掘(mining)」の概念を別のゲームの「収穫(harvesting)」へ転移するなど、概念転移能力を獲得
- 多言語および絵文字の命令理解、**マルチモーダル入力(画像など)**の処理が可能
- Genie 3と組み合わせると、新たに生成された仮想世界でも方向感覚と目標指向の行動を維持し、高い適応力を証明
Self-Improvement(自己改善)
- SIMA 2は自己主導型学習ループを通じて、人間の介入なしに性能を向上
- Geminiが初期課題と報酬推定を提供
- SIMA 2はこれを基に独自の経験データバンクを構築し、後続学習に活用
- 失敗した課題も自ら反復学習して改善し、人間のデモなしで新しいゲームを学習可能
- Genie 3環境でも自己改善を繰り返し、多世代学習による性能向上を確認
- この構造は継続的自己学習型の身体性AIへ発展する可能性を示す
Future Directions(今後の方向性)
- SIMA 2は、さまざまなゲーム環境で複合的な推論と自己主導学習を行う汎用知能の試験場として機能
- 限界としては、長期課題の遂行、多段階推論、短いメモリの限界、視覚的複雑性の処理などが指摘されている
- しかし、複数世界のデータとGeminiの推論能力を組み合わせることで、複数の特化システムの機能を統合した汎用エージェントとして検証された
- 習得した探索・ツール使用・協業遂行能力は、今後物理ロボットAIへ拡張される中核基盤となる
Responsible Development(責任ある開発)
- SIMA 2は人間中心の相互作用を志向し、自己改善機能などの中核技術を責任を持って開発
- Google DeepMindのResponsible Development & Innovationチームと協力し、初期段階から安全性レビューを実施
- 現在は限定的な研究プレビューの形で、学界および一部のゲーム開発者にのみ早期アクセスを提供
- このアプローチを通じてフィードバックとリスク評価を収集し、今後責任ある技術発展を目指す
1件のコメント
Hacker Newsの意見
AIがビデオゲームをプレイするのもすごいが、SIMA 2がマウスを直接操作し、画面を毎秒30フレーム以上で読み取るという点こそ本当に驚き
今のコンピュータ操作エージェントはあまりに遅いが、これは完全に別次元。内部のアーキテクチャがどうなっているのか気になる
「Chromeを開く」「xyz.comに移動」「ログインをクリック」といった命令を、画面単位で実行してくれる存在のこと
ロボットの高レベル制御と低レベル制御のあいだのギャップは徐々に縮まりつつある
数千時間分のタスク別学習データをもとに、特定の文脈でロボットが特定の作業を行うよう訓練している
「食洗機を空にする」「私の動きを真似する」「ひもを引っ張る」といった低次の命令でロボットを制御する形だ
この方式がSIMA 2のような高レベル制御エージェントと結びつけば、現実世界で役立つロボットが生まれるだろう
こうした入力がなぜ低レベルなのか、そしてSIMA 2のような高レベル制御エージェントとどう相互作用するのか気になる
SIMA 2が「食洗機を空にする」のような命令を実際のキー入力やインターフェース操作に変換する構造なのか?
これはTed Chiangの短編『The Lifecycle of Software Objects』を思い出させる
次の段階は、このディジエントAIをFigure 03ロボットに入れることかもしれない
実際、Butter Bench実験では一般的なLLMがロボット掃除機を制御したが、
バッテリーが切れかけると「ドッキング不安」のような感情的ログを残しつつパニックになる場面があった。面白いが興味深い結果だった
SIMA 2がGeminiベースのフィードバックによってますます複雑な作業をこなせるようになる、という説明が興味深い
自身の経験データを次のバージョンの訓練に活用するというのだから、自己改善型の構造に見える
SIMAはGeminiの上で動くエージェントレイヤーなのだろうか?
こうした技術は最終的にeスポーツを壊してしまうのではないかという気もする
AIが人間より反応が速く、疲れもしないなら、いずれMMOやFPSのようなゲームがAIだらけになるかもしれない
むしろ優れたAIは反復作業を減らし、プレイヤーが戦略的判断に集中できる新しいジャンルのゲームを開くかもしれない
同じように、人間対AIという構図が生まれても面白さは維持されそう
結局AIの使用は、チートやスクリプトのように社会的に『補助手段』として認識されるはずだ
FPSではあまりに目立つだろうが、ターン制やMMORPGのような手と目の協応がそれほど重要でないゲームでは見分けがつきにくい
むしろESPのような微妙なチートのほうがeスポーツには大きな脅威だ
私はもっと賢いゲームを求めている
サバイバルゲームのように木や石を集める序盤を過ぎ、技術が進歩したら自動化へ移行する構造のことだ
NPCたちに資源を掘らせ、食料や防衛を整えさせて、より大きな目標を達成するような形だ
プレイヤーは『大ボス』となって、賢いキャラクターたちに命令を出すファンタジーを楽しむのだ
GPT-4やGeminiのようなLLMを使って、Minecraft内で資源採集、建築、協力などを行う知能ボットシステムだ
鉄が貴重だと気づいて、動機づけを得られるのだろうか?
単に『ゲームクリア』が目標なら、エンダードラゴンだけを真っ先に倒しに行くかもしれない
ただし『家を飾る』代わりに『伝説級武器用の鉱石を掘る』版というだけだ
Googleには昔のようなオープンな研究文化に戻ってほしい
最近は実験を非公開で進めて、プレスリリースだけ出す傾向がある
オープンソースで公開し、本当に必要なときだけ閉じる方式であってほしい
それだけ彼らの研究が印象的で、より直接参加したい気持ちが強い
これは研究プロジェクトだが、次の段階が気になる
仮想世界で学んだことを現実のロボットに転移できるのだろうか?
それとも現実で別に訓練しなければならないのか?
また、現実の物理と異なるゲーム環境を乗り越えるには、より精巧なシミュレーション世界が必要なのではないか?
高精度なワールドモデルが登場すれば、その中でロボットを訓練し、現実へ一般化できるようになるはずだ
今はその土台を築いている段階だ
デモ動画の0:52で文法ミスが見えたので、注釈が後から編集されたものではないかと疑っている
Googleがまたマーケティング目的で誇張したのだろうか?
「トマトハウスへ行く」という命令形に変えて使ったのだろう
それでもグラフのY軸は、最近の他のベンチマークよりはるかに妥当に見える
要約版では省かれているが、文脈上その表現は含まれている
こうした技術がゲーム補助エージェントとしてローカルで動いてくれたらいいのにと思う
反復作業を代わりにやってくれれば、ゲームをもっと長く楽しめそうだ
完璧でなくても、むしろそこが面白さになるかもしれない
これで詩や絵、ゲームのような面倒なことまで任せられそうだ
AIに代行させれば、結局興味を失ってしまう。ゲームは労力と報酬のバランスで設計されているのだから
座標基準でブロックを掘らせたが、画面を見ていないとモンスターの穴に落ちることもあった。完全に『目の見えないボット』だった