Magma - マルチモーダルAIエージェントのための基盤モデル
(microsoft.github.io)- Magmaは、マルチモーダル入力を解釈し、それを環境内で結び付けられる初の基盤モデルであり、仮想世界と現実世界における複雑な相互作用を処理できる
- 単純な画像・動画理解だけでなく、目標指向の視覚的計画と実行を生成し、さまざまなAIエージェントのタスクを実行
- UIナビゲーション、ロボット操作、画像・動画理解(特に空間理解と推論)など、複数のマルチモーダルタスクで最先端の性能を達成
- スケーラブルな事前学習方式: ラベルなし動画データを既存のエージェントデータとともに学習し、強力な汎化性能を持ち、実運用に適している
- コード、モデル、UIナビゲーションのデモを MSR Forum (2025.02.25) で公開予定。
Magmaの目標
- 言語および時空間的知能:
- 画像と動画を正確に理解し、それを基に目標を行動計画と実行へ変換する能力
- デジタル環境および物理環境での動作:
- Webナビゲーション(UI操作)とロボット操作の両方を実行可能
- 人間のようにデジタル環境と物理環境を自由に行き来できるAI
- そのために、ラベルなし動画データと既存のエージェントデータを活用する新しい学習データセットと、テキスト・画像・行動を統合的に学習する事前学習フレームワークを開発し、Magmaを学習させた
Magmaの事前学習方式
- Magmaは2つの中核的なアプローチによって学習される。
- 1️⃣ 大規模で異種な学習データの活用
- 既存のマルチモーダルデータ、UIナビゲーションデータ、ロボット操作データだけでなく、ラベルなし動画データを大量に収集して学習する。
- カメラの動きを除去し、実際の行動データを抽出することで、モデルが長期的な行動予測と計画を学習できるようにする。
- 2️⃣ 統合事前学習目標の設定
- テキストと行動は本質的に異なり、それらを効果的に結び付けることが課題
- Set-of-Mark、Trace-of-Mark などの新しい学習手法を導入し、テキスト・画像・行動間の強力なアラインメント構造を構築
- Set-of-Mark (SoM): 画像における効果的な行動の基盤を可能にし、UIスクリーンショット、ロボット操作、人間の動画におけるクリック可能なボタンやロボットアームに対する数字マークを予測する。
- Trace-of-Mark (ToM): ロボット操作および人間の行動に対する教師信号を提供し、モデルが時間的な動画ダイナミクスを理解し、行動する前に未来の状態を予測するようにする。
モデルの使い方
直接使用(Fine-tuningなしで利用可能)
Magmaは研究用途向けに設計されており、次のような形で利用できる。
- 画像/動画ベースのテキスト生成: 入力された画像・テキストを基に説明や回答を生成可能。
- 視覚的計画(Visual Planning): 物体移動など、目標達成のための将来の行動経路を予測できる。
- エージェント機能:
- UIナビゲーション: たとえば、"検索ボタンをクリック" のようなUI操作を予測
- ロボット操作: ロボットの7自由度(7 DoF)操作を予測
ダウンストリームタスク(Fine-tuning活用)
Magmaは特定のタスクに合わせて追加学習が可能。
- 画像キャプショニングおよびQA: 既存のマルチモーダル大規模言語モデル(LLM)の方式で学習し、空間理解と推論能力を強化。
- 動画キャプショニングおよびQA: 動画データに対する時間的理解と推論能力を強化可能。
- UIナビゲーション: WebおよびモバイルのUIナビゲーションタスクに最適化し、高い性能を達成できる。
- ロボット操作: ロボット制御のための追加学習により、OpenVLA などの既存のロボット操作モデルを上回る性能を示す。
バイアス(Bias)、リスク(Risks)、制限事項(Limitations)
- 本モデルはすべてのダウンストリームタスク向けに設計されたものではない。
- 特定のユースケースに適用する前に、正確性、安全性、公平性を評価し調整する必要がある。
- 特に高リスクなシナリオでは、適用される法律および規制を遵守する必要がある。
1件のコメント
Hacker Newsのコメント