- Gemini 2.0をロボティクスに導入し、ビジョン・言語・行動(VLA)モデルと、空間を理解するERモデルを発表
- Google DeepMindは、複雑な問題を解決するために、テキスト、画像、音声、動画を活用したマルチモーダル推論能力を発展させてきた
- しかし、こうした能力はこれまでデジタル環境に限られていた
- 物理世界でAIが有用になるには、人間のように環境を理解して反応し、安全に作業を実行する**「身体性推論(embodied reasoning)」**能力が必要
- これに伴い、2つの新しいモデルを発表
- Gemini Robotics: Gemini 2.0ベースで、ロボットを直接制御できるビジョン・言語・行動(VLA)モデル
- Gemini Robotics-ER: 強化された空間理解力とロボット制御能力を提供するモデル
- Apptronikと協力し、次世代のヒューマノイドロボットを開発中
- 少数の信頼できるテストユーザーと協力し、モデル性能を改善中
Gemini Robotics: 最も進化したビジョン・言語・行動モデル
1. 汎化能力(Generality)
- 新しい状況でも適応し、多様な作業を実行可能
- 新しい物体、命令、環境でも優れた性能を発揮
- 技術レポートによると、既存のVLAモデルと比べて汎化性能が2倍以上向上
2. 相互作用能力(Interactivity)
- 自然言語の命令を理解して反応可能
- 多様な言語や日常的な言い回しの命令に対応
- 環境の変化にリアルタイムで反応し、行動を修正可能
- 物体が手から滑り落ちたり位置が変わったりしても、即座に再計画して作業を継続可能
3. 器用さ(Dexterity)
- 細かな作業を行う能力を強化
- 複雑な多段階作業を実行可能(例: 折り紙、ジッパーバッグにおやつを入れるなど)
4. 多様なロボット形態への適用可能性(Multiple embodiments)
- さまざまなロボット形態に容易に適用可能
- ALOHA 2、Frankaベースのロボット、ヒューマノイドのApolloロボットで動作を確認
Gemini Robotics-ER: 強化された空間理解能力
- Gemini 2.0の空間認識および3D検出性能を大幅に強化
- ロボットが物体の位置を認識し、適切な方法で操作可能
- コード生成能力を組み合わせることで、ロボットが新しい作業方法をその場で生成可能
- 成功率がGemini 2.0比で2〜3倍向上
- デモ例: コーヒーカップの取っ手を認識し、安全な経路で接近して持ち上げる
AIとロボットの安全性強化戦略
- ロボットの物理的な安全性の問題解決に注力
- ロボットが衝突回避、接触力の制限、動的安定性の維持など、従来の安全対策を実施
- Gemini Robotics-ERは、安全上の懸念がある場合に作業を実行すべきかを判断し、適切に対応
- 新しいASIMOVデータセットを公開 → ロボット行動の安全性評価と改善が目的
- 社内の責任・安全委員会および外部専門家と協力して倫理的課題に対応
主なパートナーと今後の計画
- Apptronikと協力してヒューマノイドロボットを開発
- Agile Robots、Agility Robots、Boston Dynamics、Enchanted ToolsなどでGemini Robotics-ERをテスト中
- 今後もAIとロボティクス技術の発展を継続的に推進する計画
関連リンク
1件のコメント
Hacker Newsの意見
Iron Man 1のロボットアームを思い出させる