Google SIMA - 3D仮想環境のための生成AIエージェント

(deepmind.google)

8 ポイント投稿者 GN⁺ 2024-03-14 | 1件のコメント | WhatsAppで共有

DeepMindがScalable Instructable Multiworld Agent（SIMA）を公開
- - Google DeepMindは、Atariゲームから人間のグランドマスター級でStarCraft IIをプレイするAlphaStarシステムに至るまで、AIとゲーム分野で長い歴史を持つ
SIMAは3D仮想環境のための汎用AIエージェントで、さまざまなビデオゲーム環境で自然言語の指示に従って行動できる
今回の研究は個別のゲームに焦点を当てるのではなく、汎用的で指示可能なゲームプレイAIエージェントへの転換を目指している
さまざまなゲーム開発者と協力し、複数のビデオゲームで訓練された
AIエージェントが幅広いゲーム世界を理解し、その中で自然言語の指示に従って作業を実行できることを初めて示した

ビデオゲームから学ぶ

SIMAはHello Gamesの No Man’s Sky とTuxedo Labsの Teardown を含む9種類のビデオゲームで訓練およびテストされた
多様な環境に触れさせるため、ゲーム開発者と協力して8つのゲームスタジオと提携した
SIMAは簡単な探索やメニュー操作から、資源採掘、宇宙船の操縦、ヘルメット作成に至るまでさまざまなスキルを学んだ
Unityで構築した新しい環境であるConstruction Labを含む4つの研究環境でも使用された

SIMA: 多才なAIエージェント

SIMAはさまざまな環境を認識・理解し、指示された目標を達成するための行動を取れるAIエージェントである
高精度な画像と言語のマッピングのためのモデルと、画面上で次に起こることを予測する動画モデルを含む
ゲームのソースコードや特定のAPIにアクセスする必要はなく、画面画像とユーザーが与える簡単な自然言語の指示だけを必要とする
SIMAはキーボードとマウスの出力を使ってゲーム内の中心キャラクターを操作し、これらの指示を実行する

ゲームおよびその他の環境での汎化

複数のゲームで訓練されたエージェントは、単一のゲームだけで訓練されたエージェントよりも優れた性能を示した
訓練済み環境だけでなく未見の環境でも人間レベルの性能を発揮するには、さらなる研究が必要である
SIMAの性能は言語に依存しており、言語訓練や指示がない場合でも適切には行動するが、目的を持たずに動く

AIエージェント研究の進展

SIMAの結果は、汎用的な言語ベースAIエージェント開発の可能性を示している
これは初期段階の研究であり、より多くの訓練環境と、より高性能なモデルを統合することでSIMAをさらに発展させることが期待される
最終的には、オンラインと現実世界の両方で人々の役に立ち、多様な作業を理解して安全に実行できる汎用AIシステムとエージェントの構築を目指している

GN⁺の見解

SIMAは、AIがさまざまな環境で人間のように指示を理解し行動できる能力を示す重要な研究である
このような研究は、AIが単純な作業の実行を超えて、複雑な戦略的計画やマルチタスクをこなせる未来を切り開く可能性がある
ただし、AIが人間レベルの性能を発揮するには、依然として多くの研究と進展が必要である
この技術が現実世界の問題解決にどのように応用できるのか、またAIの汎化能力にどのような潜在的限界があるのかについての議論が必要である
類似機能を持つ別のAIプロジェクトとして、さまざまなビデオゲームで学習できるAIプラットフォームであるOpenAI Gymがある

1件のコメント

GN⁺ 2024-03-14

Hacker Newsのコメント

TI7でプロのDotaプレイヤーたちと対戦できるOpenAIが公開されたことは忘れられない。Dotaは非常に複雑で難しいゲームだ。この体験は自分のキャリアに大きな変化をもたらした。
開発者たちがこの技術を使ってNPCにより多くの命を吹き込めることを願う。複数のRPGで独立した生活を送るNPCという約束が実際に目に見える結果につながったことはなかったが、AIによって今はそれに近づいているのかもしれない。
MMORPGではすでに深刻な問題であるボット利用が、プレイヤー経済を歪め、みんなのゲーム体験を低下させている。こうしたゴールドファーマーを止めるためのいたちごっこは、はるかに難しくなるだろう。
ロボット終末が現実になるというSFは、もはやSFではない。なぜなら「面白い」暴力的なゲームの方が、退屈な現実シミュレーターよりはるかに安く、内容も豊富だからだ。
ゲーム開発のCIツールとしての利用は面白そうだ。UIだけでなく、文章やゲームの流れも検証するエンドツーエンドのプレイスルーテスト。「最初の木を切るのにかかった時間: +20%」のようなレポートを受け取るところを想像してみる。
この技術 + Vtuber技術 + 観客と対話するチャットボット + 音声変換技術 == ゲームインフルエンサーの自動化
StarCraft IIでDeepMindのAlphaStarと比べてSIMAがどれほどうまく機能するのか、自分が高レベルの指示を出してSIMAが実行したらどうなるのかを考えてしまう。すると、こうした種類の戦争ゲームはすでにテストされているのかもしれないという不吉な感覚に襲われる。AIが一部の要求を実行する前に懸念を示し、確認を求める逆方向の安全装置も必要になるだろう。
Ender’s Gameを思い出させる。彼らは子どもにコンピューターゲームをしているのだと偽り、異星人種族を絶滅させてしまう。
2017年4月のNvidiaによる「GeForce GTX G-Assist」というジョークが、まもなく現実になるかもしれない。
Transformer-XLを2019年から使っていることに驚いた。XLNetのようなアーキテクチャを今でも使っている人たちがいるとは知らなかった。

Google SIMA - 3D仮想環境のための生成AIエージェント

ビデオゲームから学ぶ

SIMA: 多才なAIエージェント

ゲームおよびその他の環境での汎化

AIエージェント研究の進展

GN⁺の見解

関連記事

1件のコメント

Hacker Newsのコメント