GoogleはどのようにGemini Roboticsモデルを開発したのか
(blog.google)- Google DeepMindは、物理的な作業が可能な次世代ロボット向けマルチモーダルAIモデル Gemini Robotics を開発
- このモデルは、テキスト、動画、音声だけでなく実際の行動まで実行できるように、Gemini 2.0 をロボット特化データでファインチューニングしたバージョン
- ロボットはサラダ作り、○×ゲーム、折り紙、昼食用弁当の梱包など多様な作業を実行
実際のテスト事例と可能性の確認
- 研究用 ALOHA双腕ロボット にさまざまな作業を依頼
- 例: 靴の中にペンを入れる、バスケットボールのダンクシュートを求める、など
- ロボットはこれまで見たことのない物体や作業であっても依頼を理解し、最初の試行で成功裏に実行した
- 既存モデルとは異なり、複雑な物理的命令を自然言語で理解して実行 可能
Gemini Roboticsの中核的特徴
- 高い柔軟性、相互作用能力、汎化能力 を備える
- 追加学習なしでも新しい物体、環境、指示に適応可能
- AIとロボットを1つの統合エージェントとして実装できる基盤を用意
- 人間に近い認識・判断・行動能力を提供
構成モデルの紹介
-
Gemini Robotics-ER (Embodied Reasoning):
- Gemini 2.0 Flash ベース
- 物体認識、位置把握、移動軌道予測、グリップ設定などを通じてコードを生成・実行
- 信頼できるテスターおよびパートナーに公開中
-
Gemini Robotics:
- ビジョン・言語・行動統合モデル
- シーン理解、ユーザーとの相互作用、多段階タスクの実行が可能
- 複雑な操作や空間推論が必要な作業でも 最新の最高水準の器用さ性能 を記録
具体的な技術能力
- 2Dおよび3D物体検出
- ポインティング(指示)機能
- 複数ビュー間での対応点探索
- 多様な視覚情報を活用した操作能力を確保
学習アプローチと利点
- 従来の産業方式である 単一作業の反復学習 ではなく、多様な作業による広範な学習 を選択
- その結果、汎化能力 が自然に現れた
- さまざまな形態のロボットに適用可能
- 例: ALOHA(研究用)、ApptronikのApollo(ヒューマノイドロボット)
多様な形態のロボットをサポート
- 弁当の梱包、ホワイトボード消し、小さな物体の把持など、さまざまな形態のロボットが多様な作業を実行
- 1つのモデルが複数のロボットに適応可能 である点が核心
今後のビジョン
- 精密な作業が求められる、または人間に適さない環境の産業分野での有用性に期待
- 家庭など 人間中心の環境でも役立つロボット へと発展する可能性がある
- 実際の日常でロボットが AIとのもう1つのインターフェース になる可能性がある
1件のコメント
Hacker Newsのコメント