1 ポイント 投稿者 GN⁺ 2025-11-14 | 1件のコメント | WhatsAppで共有
  • Geminiモデルを統合したSIMA 2は、言語命令に従う段階を超え、ユーザーの目標を理解し、自ら思考しながら相互作用する3D仮想環境向けAIエージェントへと進化
  • 600以上の言語ベースの行動を実行していた前バージョンとは異なり、推論・対話・自己改善機能を備え、新しいゲームでも目標指向の行動を実行
  • MineDojoASKAなど学習していないゲームでも高い汎化性能を示し、人間プレイヤーに近い課題達成率を実現
  • 自己改善ループを通じて、人間のデータがなくても自ら経験を蓄積し、性能を向上させる構造を実装
  • こうした進展は、**汎用身体性知能(embodied intelligence)**およびロボティクス応用へとつながる基盤を整える

SIMA 2 概要

  • SIMA 2はGoogle DeepMindが開発したGeminiベースのAIエージェントで、3D仮想環境で人間と一緒にプレイし、学習するシステム
  • 初期バージョンのSIMAは言語命令を行動へ翻訳することに重点を置いていたが、SIMA 2は目標推論、対話、自己改善機能を追加
  • このモデルは**AGI(汎用人工知能)**への前進を示しており、ロボティクスおよびAI身体性研究に重要な意味を持つ

Reasoning(推論能力)

  • SIMA 1は「左に曲がる」「はしごを登る」など600以上の命令を実行していたが、ゲーム内部のメカニズムにアクセスせず、画面を見て操作する方式だった
  • SIMA 2はGeminiモデルを内蔵し、単純な命令実行を超えて目標を理解し、論理的に思考できる
  • 学習データは人間のデモ映像とGemini生成ラベルを混合して構成されており、エージェントは自身の行動計画と手順を説明できる
  • テストの結果、ユーザーはSIMA 2との相互作用を命令ではなく協業として感じており、さまざまなゲーム環境で学習と評価が行われた
  • Geminiの推論エンジンにより、複雑な3D環境で知覚・理解・行動が統合された身体性AIを実現

Generalization(汎化性能)

  • Gemini統合により、複雑で微妙な命令の理解と実行能力が向上
  • 学習していないゲーム(例: ASKAMineDojo)でも高い成功率を示し、人間レベルに近い課題達成率を実現
  • 「採掘(mining)」の概念を別のゲームの「収穫(harvesting)」へ転移するなど、概念転移能力を獲得
  • 多言語および絵文字の命令理解、**マルチモーダル入力(画像など)**の処理が可能
  • Genie 3と組み合わせると、新たに生成された仮想世界でも方向感覚と目標指向の行動を維持し、高い適応力を証明

Self-Improvement(自己改善)

  • SIMA 2は自己主導型学習ループを通じて、人間の介入なしに性能を向上
    • Geminiが初期課題と報酬推定を提供
    • SIMA 2はこれを基に独自の経験データバンクを構築し、後続学習に活用
  • 失敗した課題も自ら反復学習して改善し、人間のデモなしで新しいゲームを学習可能
  • Genie 3環境でも自己改善を繰り返し、多世代学習による性能向上を確認
  • この構造は継続的自己学習型の身体性AIへ発展する可能性を示す

Future Directions(今後の方向性)

  • SIMA 2は、さまざまなゲーム環境で複合的な推論と自己主導学習を行う汎用知能の試験場として機能
  • 限界としては、長期課題の遂行、多段階推論、短いメモリの限界、視覚的複雑性の処理などが指摘されている
  • しかし、複数世界のデータとGeminiの推論能力を組み合わせることで、複数の特化システムの機能を統合した汎用エージェントとして検証された
  • 習得した探索・ツール使用・協業遂行能力は、今後物理ロボットAIへ拡張される中核基盤となる

Responsible Development(責任ある開発)

  • SIMA 2は人間中心の相互作用を志向し、自己改善機能などの中核技術を責任を持って開発
  • Google DeepMindのResponsible Development & Innovationチームと協力し、初期段階から安全性レビューを実施
  • 現在は限定的な研究プレビューの形で、学界および一部のゲーム開発者にのみ早期アクセスを提供
  • このアプローチを通じてフィードバックとリスク評価を収集し、今後責任ある技術発展を目指す

1件のコメント

 
GN⁺ 2025-11-14
Hacker Newsの意見
  • AIがビデオゲームをプレイするのもすごいが、SIMA 2がマウスを直接操作し、画面を毎秒30フレーム以上で読み取るという点こそ本当に驚き
    今のコンピュータ操作エージェントはあまりに遅いが、これは完全に別次元。内部のアーキテクチャがどうなっているのか気になる

    • 今の時代に人間が何かに興奮できるということのほうが、むしろすごい。AIが私たちのやっていたことを全部代替しつつあるから
    • スマートフォンを代わりに操作してくれるAIエージェントが切実に欲しい
      「Chromeを開く」「xyz.comに移動」「ログインをクリック」といった命令を、画面単位で実行してくれる存在のこと
    • マウスを直接操作するって?
    • 機械ならフレーム単位でゲームをプレイできるのでは?
    • PythonのdxcamとWindows Hook APIでHIDメッセージを受信すれば可能そう
  • ロボットの高レベル制御と低レベル制御のあいだのギャップは徐々に縮まりつつある
    数千時間分のタスク別学習データをもとに、特定の文脈でロボットが特定の作業を行うよう訓練している
    「食洗機を空にする」「私の動きを真似する」「ひもを引っ張る」といった低次の命令でロボットを制御する形だ
    この方式がSIMA 2のような高レベル制御エージェントと結びつけば、現実世界で役立つロボットが生まれるだろう

    • 私は物理ベースのキャラクターアニメーションを研究しているが、単にデータをもっと集めればこの問題がすぐ解決するとは思えない
    • 「ビデオゲームのように動作する」というのがよく分からない
      こうした入力がなぜ低レベルなのか、そしてSIMA 2のような高レベル制御エージェントとどう相互作用するのか気になる
      SIMA 2が「食洗機を空にする」のような命令を実際のキー入力やインターフェース操作に変換する構造なのか?
  • これはTed Chiangの短編『The Lifecycle of Software Objects』を思い出させる
    次の段階は、この
    ディジエントAI
    Figure 03ロボットに入れることかもしれない

    • Googleはおそらくロボット制御専用のAIを別途訓練するのではないか
      実際、Butter Bench実験では一般的なLLMがロボット掃除機を制御したが、
      バッテリーが切れかけると「ドッキング不安」のような感情的ログを残しつつパニックになる場面があった。面白いが興味深い結果だった
  • SIMA 2がGeminiベースのフィードバックによってますます複雑な作業をこなせるようになる、という説明が興味深い
    自身の経験データを次のバージョンの訓練に活用するというのだから、自己改善型の構造に見える
    SIMAはGeminiの上で動くエージェントレイヤーなのだろうか?

    • 私にもそう聞こえる。2つのシステムがテキストインターフェースでつながっている構造のようだ
  • こうした技術は最終的にeスポーツを壊してしまうのではないかという気もする
    AIが人間より反応が速く、疲れもしないなら、いずれMMOやFPSのようなゲームがAIだらけになるかもしれない

    • スポーツは結局ルールの集合だ。不正を防ぐことが核心だろう
      むしろ優れたAIは反復作業を減らし、プレイヤーが戦略的判断に集中できる新しいジャンルのゲームを開くかもしれない
    • チェスもすでにAIが人間より強いが、それでも楽しさは残っている
      同じように、人間対AIという構図が生まれても面白さは維持されそう
    • 最初はAIが人間に勝てばニュースになるだろうが、やがて物珍しさは消えるだろう
      結局AIの使用は、チートやスクリプトのように社会的に『補助手段』として認識されるはずだ
    • 昔、World of Warcraftで強化学習で作られたドルイドボットが2v2の試合で人間を全員倒したことがあった
      FPSではあまりに目立つだろうが、ターン制やMMORPGのような手と目の協応がそれほど重要でないゲームでは見分けがつきにくい
      むしろESPのような微妙なチートのほうがeスポーツには大きな脅威だ
    • 結局MMOはオンラインポーカーのように壊れる可能性が高い
  • 私はもっと賢いゲームを求めている
    サバイバルゲームのように木や石を集める序盤を過ぎ、技術が進歩したら自動化へ移行する構造のことだ
    NPCたちに資源を掘らせ、食料や防衛を整えさせて、より大きな目標を達成するような形だ
    プレイヤーは『大ボス』となって、賢いキャラクターたちに命令を出すファンタジーを楽しむのだ

    • Mindcraftというオープンソースのフレームワークがある
      GPT-4やGeminiのようなLLMを使って、Minecraft内で資源採集、建築、協力などを行う知能ボットシステム
    • SIMA 2がMinecraftでアイアンファーム交易所を自力で学べるのか気になる
      鉄が貴重だと気づいて、動機づけを得られるのだろうか?
      単に『ゲームクリア』が目標なら、エンダードラゴンだけを真っ先に倒しに行くかもしれない
    • 結局それはThe Simsを遊ぶのと似ている
      ただし『家を飾る』代わりに『伝説級武器用の鉱石を掘る』版というだけだ
  • Googleには昔のようなオープンな研究文化に戻ってほしい
    最近は実験を非公開で進めて、プレスリリースだけ出す傾向がある
    オープンソースで公開し、本当に必要なときだけ閉じる方式であってほしい
    それだけ彼らの研究が印象的で、より直接参加したい気持ちが強い

    • 私もまったく同感。実際に触ってみたい
    • Dreamer v3は公開されたが、v4ももうすぐ出るだろうか?
  • これは研究プロジェクトだが、次の段階が気になる
    仮想世界で学んだことを現実のロボットに転移できるのだろうか?
    それとも現実で別に訓練しなければならないのか?
    また、現実の物理と異なるゲーム環境を乗り越えるには、より精巧なシミュレーション世界が必要なのではないか?

    • 目標は仮想世界での学習方法を現実に適用することだ
      高精度なワールドモデルが登場すれば、その中でロボットを訓練し、現実へ一般化できるようになるはずだ
      今はその土台を築いている段階だ
    • これはロボティクスのsim2real問題と呼ばれる。調べてみるとよい
  • デモ動画の0:52で文法ミスが見えたので、注釈が後から編集されたものではないかと疑っている
    Googleがまたマーケティング目的で誇張したのだろうか?

    • おそらくゲーム内のセリフ「熟したトマトのような家に行け!」を
      「トマトハウスへ行く」という命令形に変えて使ったのだろう
      それでもグラフのY軸は、最近の他のベンチマークよりはるかに妥当に見える
    • 実際、その場面の直前にユーザーが「ripe tomato」と入力しているのが見える
      要約版では省かれているが、文脈上その表現は含まれている
  • こうした技術がゲーム補助エージェントとしてローカルで動いてくれたらいいのにと思う
    反復作業を代わりにやってくれれば、ゲームをもっと長く楽しめそうだ
    完璧でなくても、むしろそこが面白さになるかもしれない

    • むしろAIが私の代わりにゲームをしてくれれば、その時間に掃除や洗濯のような本当の仕事ができる気がする
      これで詩や絵、ゲームのような面倒なことまで任せられそうだ
    • ゲームがつまらないから代わりにやらせる、というのは変だ。ゲームの本質は自分でやること
    • 「Skeeball → Virtual Skeeball → Virtual Virtual Skeeball」のように
      AIに代行させれば、結局興味を失ってしまう。ゲームは労力と報酬のバランスで設計されているのだから
    • もし反復作業を委任しなければならないなら、それはゲームデザインが間違っているということだ
    • 私もTerrariaでAutoHotkeyを使って自動採掘スクリプトを書いたことがある
      座標基準でブロックを掘らせたが、画面を見ていないとモンスターの穴に落ちることもあった。完全に『目の見えないボット』だった