4 ポイント 投稿者 GN⁺ 2025-03-13 | 1件のコメント | WhatsAppで共有
  • Gemini 2.0をロボティクスに導入し、ビジョン・言語・行動(VLA)モデルと、空間を理解するERモデルを発表
  • Google DeepMindは、複雑な問題を解決するために、テキスト、画像、音声、動画を活用したマルチモーダル推論能力を発展させてきた
  • しかし、こうした能力はこれまでデジタル環境に限られていた
  • 物理世界でAIが有用になるには、人間のように環境を理解して反応し、安全に作業を実行する**「身体性推論(embodied reasoning)」**能力が必要
  • これに伴い、2つの新しいモデルを発表
    • Gemini Robotics: Gemini 2.0ベースで、ロボットを直接制御できるビジョン・言語・行動(VLA)モデル
    • Gemini Robotics-ER: 強化された空間理解力とロボット制御能力を提供するモデル
  • Apptronikと協力し、次世代のヒューマノイドロボットを開発中
  • 少数の信頼できるテストユーザーと協力し、モデル性能を改善中

Gemini Robotics: 最も進化したビジョン・言語・行動モデル

1. 汎化能力(Generality)

  • 新しい状況でも適応し、多様な作業を実行可能
  • 新しい物体、命令、環境でも優れた性能を発揮
  • 技術レポートによると、既存のVLAモデルと比べて汎化性能が2倍以上向上

2. 相互作用能力(Interactivity)

  • 自然言語の命令を理解して反応可能
  • 多様な言語や日常的な言い回しの命令に対応
  • 環境の変化にリアルタイムで反応し、行動を修正可能
  • 物体が手から滑り落ちたり位置が変わったりしても、即座に再計画して作業を継続可能

3. 器用さ(Dexterity)

  • 細かな作業を行う能力を強化
  • 複雑な多段階作業を実行可能(例: 折り紙、ジッパーバッグにおやつを入れるなど)

4. 多様なロボット形態への適用可能性(Multiple embodiments)

  • さまざまなロボット形態に容易に適用可能
  • ALOHA 2、Frankaベースのロボット、ヒューマノイドのApolloロボットで動作を確認

Gemini Robotics-ER: 強化された空間理解能力

  • Gemini 2.0の空間認識および3D検出性能を大幅に強化
  • ロボットが物体の位置を認識し、適切な方法で操作可能
  • コード生成能力を組み合わせることで、ロボットが新しい作業方法をその場で生成可能
  • 成功率がGemini 2.0比で2〜3倍向上
  • デモ例: コーヒーカップの取っ手を認識し、安全な経路で接近して持ち上げる

AIとロボットの安全性強化戦略

  • ロボットの物理的な安全性の問題解決に注力
  • ロボットが衝突回避、接触力の制限、動的安定性の維持など、従来の安全対策を実施
  • Gemini Robotics-ERは、安全上の懸念がある場合に作業を実行すべきかを判断し、適切に対応
  • 新しいASIMOVデータセットを公開 → ロボット行動の安全性評価と改善が目的
  • 社内の責任・安全委員会および外部専門家と協力して倫理的課題に対応

主なパートナーと今後の計画

  • Apptronikと協力してヒューマノイドロボットを開発
  • Agile RobotsAgility RobotsBoston DynamicsEnchanted ToolsなどでGemini Robotics-ERをテスト中
  • 今後もAIとロボティクス技術の発展を継続的に推進する計画

関連リンク

1件のコメント

 
GN⁺ 2025-03-13
Hacker Newsの意見
  • YouTubeで20本の動画デモを見られる完全な再生リストへのリンクがある
  • 以前にGoogle Geminiの印象的なデモが演出されていたことを覚えている人がいないのか気になる
  • アシモフのロボット工学三原則は興味深いSFの小道具ではあるが、実際のコンピューティングとはかけ離れていると思っていた
    • どうやらアシモフは時代を先取りしてLLMのプロンプトを書いていたらしい
  • ごみの分別がより簡単かつ速くなれば、リサイクル効率を100倍向上させられるはず
    • すでにそうしている場所もあるが、ロボットが世界を改善できる単純作業は多い
  • メイン動画の終盤で、ロボットがプーリーに円形ベルトを掛ける場面が印象的だった
    • 学習データにこうした動作は多いのだろうが、シャツをたたんだり物を分類したりするより直感的に感じられた
    • ページ上の動画の自動再生/一時停止/スクロール機能が壊れているようだ
  • リアルタイムの双方向翻訳機として動作するデバイスが欲しい
    • ドイツ語や他の言語を学ぶのに時間を無駄にせず、現地で暮らせたらいいのにと思う
    • 英語だけで料理の注文や行政手続きができるなら驚くべきことだ
  • 誰でも中国からロボットアームを注文してガレージに設置し、LLMのようにテキストでプログラミングできるようになるはず
    • もっと大きく考えるべき時だ
  • 動画が実際の性能を示しているのかマーケティング戦略なのか確信は持てないが、印象的ではある
    • Iron Man 1のロボットアームを思い出させる
  • ロボットが食事を準備できるほど器用になれば、雇用市場の転換点になるだろう
    • 現在のモデルはその水準に達していないが、今後数年間の合成データ生成への大規模投資でその水準に近づくのか見守りたい
  • Googleの問題は、広告事業があまりにも多くの利益をもたらすため、他の製品に意味がなくなってしまうことだ
    • ロボットを通じて学んだことを広告収益の向上に使うだろう