Magma - マルチモーダルAIエージェントのための基盤モデル

(microsoft.github.io)

3 ポイント投稿者 GN⁺ 2025-02-21 | 1件のコメント | WhatsAppで共有

Magmaは、マルチモーダル入力を解釈し、それを環境内で結び付けられる初の基盤モデルであり、仮想世界と現実世界における複雑な相互作用を処理できる
単純な画像・動画理解だけでなく、目標指向の視覚的計画と実行を生成し、さまざまなAIエージェントのタスクを実行
UIナビゲーション、ロボット操作、画像・動画理解（特に空間理解と推論）など、複数のマルチモーダルタスクで最先端の性能を達成
スケーラブルな事前学習方式: ラベルなし動画データを既存のエージェントデータとともに学習し、強力な汎化性能を持ち、実運用に適している
コード、モデル、UIナビゲーションのデモを MSR Forum (2025.02.25) で公開予定。

Magmaの目標

言語および時空間的知能:
- 画像と動画を正確に理解し、それを基に目標を行動計画と実行へ変換する能力
デジタル環境および物理環境での動作:
- Webナビゲーション（UI操作）とロボット操作の両方を実行可能
- 人間のようにデジタル環境と物理環境を自由に行き来できるAI
そのために、ラベルなし動画データと既存のエージェントデータを活用する新しい学習データセットと、テキスト・画像・行動を統合的に学習する事前学習フレームワークを開発し、Magmaを学習させた

Magmaの事前学習方式

Magmaは2つの中核的なアプローチによって学習される。
1️⃣ 大規模で異種な学習データの活用
- 既存のマルチモーダルデータ、UIナビゲーションデータ、ロボット操作データだけでなく、ラベルなし動画データを大量に収集して学習する。
- カメラの動きを除去し、実際の行動データを抽出することで、モデルが長期的な行動予測と計画を学習できるようにする。
2️⃣ 統合事前学習目標の設定
- テキストと行動は本質的に異なり、それらを効果的に結び付けることが課題
- Set-of-Mark、Trace-of-Mark などの新しい学習手法を導入し、テキスト・画像・行動間の強力なアラインメント構造を構築
  - Set-of-Mark (SoM): 画像における効果的な行動の基盤を可能にし、UIスクリーンショット、ロボット操作、人間の動画におけるクリック可能なボタンやロボットアームに対する数字マークを予測する。
  - Trace-of-Mark (ToM): ロボット操作および人間の行動に対する教師信号を提供し、モデルが時間的な動画ダイナミクスを理解し、行動する前に未来の状態を予測するようにする。

モデルの使い方

直接使用（Fine-tuningなしで利用可能）

Magmaは研究用途向けに設計されており、次のような形で利用できる。

画像/動画ベースのテキスト生成: 入力された画像・テキストを基に説明や回答を生成可能。
視覚的計画（Visual Planning）: 物体移動など、目標達成のための将来の行動経路を予測できる。
エージェント機能:
- UIナビゲーション: たとえば、"検索ボタンをクリック" のようなUI操作を予測
- ロボット操作: ロボットの7自由度（7 DoF）操作を予測

ダウンストリームタスク（Fine-tuning活用）

Magmaは特定のタスクに合わせて追加学習が可能。

画像キャプショニングおよびQA: 既存のマルチモーダル大規模言語モデル（LLM）の方式で学習し、空間理解と推論能力を強化。
動画キャプショニングおよびQA: 動画データに対する時間的理解と推論能力を強化可能。
UIナビゲーション: WebおよびモバイルのUIナビゲーションタスクに最適化し、高い性能を達成できる。
ロボット操作: ロボット制御のための追加学習により、OpenVLA などの既存のロボット操作モデルを上回る性能を示す。

バイアス（Bias）、リスク（Risks）、制限事項（Limitations）

本モデルはすべてのダウンストリームタスク向けに設計されたものではない。
特定のユースケースに適用する前に、正確性、安全性、公平性を評価し調整する必要がある。
特に高リスクなシナリオでは、適用される法律および規制を遵守する必要がある。

1件のコメント

GN⁺ 2025-02-21

Hacker Newsのコメント

Magmaプロジェクトへの関心に感謝します。私たちは推論、訓練、評価、データ前処理のコードを段階的に公開する予定であり、来週火曜日までに完了する見込みです
マルチモーダルエージェントの進歩の速さは印象的です。OpenVLAは2024年6月にリリースされ、当時は最先端でした。8か月後には、"Pick Place Hotdog Sausage" のようなタスクで成功率が2/10から6/10に上昇しました
産業用ロボットは人間の行動を模倣しないため効率的です。したがって、ロボットに人間の行動を教えるという提案にどのような意味があるのか理解しにくいです。家庭用ロボットには効率的なツールが必要になるでしょう。現在使っている洗濯機、オーブン、食器洗い機とは異なる新しい機械が必要になるはずです
マルチモーダル機能、特に次の行動予測が印象的です。GitHubでこの機能がオープンソースとして公開されるのか注目しています。Magmaという名前の理由も気になります
本当に興味深いモデルです。使ってみるのを楽しみにしています。しかし私が望んでいるのは、Meta motivoのようなヒューマノイド制御モデル向けの埋め込みを生成できるマルチモーダルエージェントモデルです。Meta motivoはSMPLスケルトンで訓練された玩具的なモデルで、指がないため機能が制限されています。SMPL-Xのようなより発展したモデルを使うこともできたでしょうが、精密な指の動きを含むオープンなモーションデータが不足しているため、強力な操作モデルを訓練するのは困難です
既存のモーションデータセットの大半は学術的なモーションキャプチャ環境に由来しており、操作作業に重点を置いていません。2D動画からの3D HPEの進歩がこのギャップを埋めると信じています。数千時間分の動画にアクセスできれば、多様な現実世界の相互作用を網羅する大規模なモーションデータセットを構築できます
これにより、手や指の関節の動きを正確にモデル化できる制御モデルが読み取れる埋め込みを生成するエージェントモデルを訓練するために必要な、2つの構成要素が実現されるはずです。2D動画からのSoTA 3D HPEの急速な進歩とオンライン動画の膨大な量を考えると、近い将来、優れた操作能力を持つヒューマノイドロボットが見られるだろうと期待しています
マグカップを洗う動画では、その人はカップを洗うふりをしていますが、手を濡らしたくないようにも見えます。モデルがこうした微妙な点をいつ捉えられるようになるのか気になります
なぜマルチモーダルモデルは柔軟に画像を生成しないのか不思議です。別のモデルに画像生成を渡しているように見えます。自分たちが作った画像に何が含まれているのか十分に理解しておらず、画像を編集できるのです
マルチモーダルエージェントは長期的なタスクで失敗することで悪名高いです。Magmaがどのような性能を示すのか気になります
マルチモーダルモデルの中に、推論訓練されたものがあるのか気になります
段階的訓練に関する研究があるのか気になります。これはRAGの代替としてロボットに使えるかもしれません

Magma - マルチモーダルAIエージェントのための基盤モデル

Magmaの目標

Magmaの事前学習方式

モデルの使い方

直接使用（Fine-tuningなしで利用可能）

ダウンストリームタスク（Fine-tuning活用）

バイアス（Bias）、リスク（Risks）、制限事項（Limitations）

関連記事

1件のコメント

Hacker Newsのコメント