Google DeepMind、ロボットデバイスに最適化されたAI「Gemini Robotics On-Device」を公開

(deepmind.google)

5 ポイント投稿者 GN⁺ 2025-06-26 | 1件のコメント | WhatsAppで共有

ロボットに直接搭載して使えるよう最適化された汎用性の高いVLA（Vision-Language-Action）モデル
高速なタスク適応と汎用的な操作性を提供し、インターネット接続なしでローカル動作することで低遅延性と耐障害性を確保
最小限の計算資源しか必要とせず、双腕ロボットベースの精密操作と高速な作業切り替え能力を備える
開発者はGemini Robotics SDKで自分の環境に合わせて素早くテストでき、50〜100回程度の小規模なデモだけでも迅速なタスク適応が可能
他のオンデバイスモデルと比べてより高い汎化・適応性能を示し、複雑な指示や新しい作業も効率よく実行
安全性と責任ある開発原則を適用し、実環境や社会的影響に対するリスク最小化とフィードバック収集体制を導入

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Gemini Robotics On-Deviceは、ローカルなロボティクスデバイス上で直接動作できるよう設計された高効率なVLA（Vision-Language-Action）モデル
3月に公開されたGemini Roboticsのマルチモーダル推論能力と現実世界の理解力を実際の物理環境に適用
オンデバイスモデルの強み
- ネットワークなしでも独立して動作でき、低遅延性が必要な環境や接続が不安定な環境でも強みを発揮
- ローカル環境に最適化されており、高速なリアルタイム処理が可能
- 多様な視覚的・意味的・行動的な汎化能力を保有
- 双腕ロボットベースの精密な操作作業（ジッパーを開ける、服をたたむなど）を実行可能
- 自然言語の指示を理解し、複雑な段階的作業を実行可能

SDK提供により容易な導入とカスタマイズが可能

Gemini Robotics SDKを通じて、開発者は自社環境でモデルをテストし、MuJoCo物理シミュレータを利用して検証し、さまざまな作業に適用可能
50〜100回程度の小規模デモだけで新しいドメインへの迅速な適応が可能

Model capabilities and performance

Gemini Robotics On-Deviceは、bi-armロボットに適した最小限の計算資源で設計されている
高速な実験、器用さを要する操作、ローカル実行、低遅延推論などに最適化
自然言語コマンドを認識し、ジッパーを開ける・服をたたむといった高難度の操作も直接実行
従来のオンデバイスモデルと比べて汎用性・汎化性能に優れ、複雑なマルチステップ指示も効果的に処理
より高い性能や制約のない環境が必要な場合は、Gemini Roboticsモデル（サーバーベース）も提供

Adaptable to new tasks, generalizable across embodiments

Gemini Robotics On-Deviceは、初めてファインチューニングが可能なVLAモデル
50〜100回程度のデモだけで新しい作業に素早く適応し、さまざまな難易度のデクスタリティタスク（ジッパーを閉める、カードを引き抜く、ドレッシングを注ぐなど）で競合モデルを上回る適応性能を示す
特定のロボット（ALOHA）向けに学習されているが、Franka FR3・Apollo humanoidなど多様な形態のロボットにも追加学習によって拡張可能
多様な指示・新しい物体・複雑な産業用タスク（ベルト組み立てなど）にも対応可能

Responsible development and safety

AI Principlesと統合的な安全フレームワークを基盤としてモデルを開発
[Live API]などで意味的・コンテンツ安全性を確保し、低レベル安全コントローラと連携して実動作時の安全性を強化
Semantic Safety BenchmarkやRed-Teamingなど多様な評価体系を通じてリスクを点検
専任チーム（Responsible Development & Innovation、RSC）が社会的影響評価とフィードバック収集を継続的に実施
信頼できるテスターグループ向けに先行提供し、初期の使い勝手と安全性評価を収集

Accelerating innovation in robotics

Gemini Robotics On-Deviceは、ロボティクスコミュニティに汎用・適応型AIモデルを提供し、遅延・接続性の問題の克服を支援
SDKによる迅速な導入とタスク適応機能によってイノベーションの加速を期待
Trusted Tester Programを通じてモデルおよびSDKにアクセス可能
AIの物理世界への適用を拡大し、ロボティクス分野の未来を切り開くビジョンを提示

1件のコメント

GN⁺ 2025-06-26

Hacker Newsの意見

ヒューマノイド・ロボティクスについては楽観的な見方を持っているが、信頼性の問題が気になる。人間の手足や手は世界に絶えず触れながら自然な摩耗が生じても自ら回復する、驚くべきシステムだ
- 産業用ロボットは信頼性の面で非常に優れている。MTBF（平均故障間隔）が100,000時間を超えることも多い。産業用ロボットはできるだけ長く故障せず稼働するよう設計し、収益性を高めることが重要だ。ドイツと日本の企業は信頼性を重視して電動アクチュエータを開発し、産業用ロボット市場を支配した。過去には米国の Cincinnati Millicron の油圧式ロボットは強力だったが、信頼性が低く競争に敗れた。しかし、人型の手は小さな部品が多く大きな力に耐えなければならないため、産業用ロボット並みの信頼性を達成するのは難しいという懐疑的な見方もある関連リンク
- 近い将来の可能性を考えると非常に興味深く、あるいは少し不気味でもある。以前は特定目的（例: 清掃専用ロボット）に集中すると思っていたが、実際には準備が整ったときにはかなり汎用的に使われそうだ。多くのセンサーとモーターが必要だろうが、自動運転車に比べて法的リスクが低く、必要な資源も少ないだろうという点が興味深い
- 別のロボットが消耗部品を自動で交換してくれる方式も可能だと思う
- 材料科学のさらなる研究でこうした問題も解決可能だと思う。応答性が高く、それでいてトルクの低いサーボと組み合わせれば、これも解決できる問題だと考える
- ロボットが時間とともに個別に「違って」変化していく点が興味深い。たとえば鉱山ロボットのように環境が過酷な場所では、部品がほこりで大きく汚染されたり、あちこち摩耗したり、落石で曲がったりすることもある。別のロボットが一時的に修理したとしても、時間が経つにつれてすべてのロボットがそれぞれ少しずつ違う状態になっていきそうだ。商用航空機の整備作業も、衝突や損傷に応じてその都度固有の対応になるように、ロボットもおそらくリサイクルのほうがより簡単な解決策になりうる
"trusted tester program" に参加しやすいのか、そして SDK を手軽に活用できるモジュールも提供されるのか気になる
- 当該記事の下部に参加ボタンがあると案内している
SDK がどのハードウェアで動くのか、最新の Raspberry Pi でも動作するのか気になる
- ブログ記事によれば、最低でも 8GB RAM の NVIDIA Jetson Orin が必要で、Jetson AGX Orin（64GB）と Orin NX（16GB）モジュールに最適化されている
- プロジェクト貢献者の一人が x で 4090 グラフィックカードで動くと投稿していたと言及関連 x リンク
- 根本的にはこのシステムはマルチモーダル LLM（大規模言語モデル）と考えられる。SmolVLA（0.5B パラメータ）のような小さなモデルは特定の作業に素早く効率的で、OpenVLA（Llama2 7B finetune）はより一般的な作業に使われる大型モデルだ。Raspberry Pi でも一部の特化型モデルは動かせるし、より汎用的なモデルも高性能な民生用ハードウェアがあれば十分可能だ
MuJoCo のリンクが実際には github.com/google-deepmind/aloha_sim につながっている
- mujoco_menagerie にはさまざまなロボットの Mujoco MJCF XML モデルが含まれている google-deepmind/mujoco_menagerie / aloha モデル
モデルアーキテクチャが気になる。LLM とはかなり異なるはずだと予想しているので、VLA アーキテクチャを詳しく説明したリンクがあれば共有してほしい
- 実際には LLM にかなり近い構造だと思う。"Visual Language Action" の VLA モデルで、Gemini 2.0 をベースにしている。Gemini 2.0 は言語、音声、動画をネイティブにサポートしているので、"action" データも含められると推測できる。おそらく output fine-tuning の段階で動作データが追加された構造に見える。こうしたネイティブ・マルチモーダル LLM がまもなく「脳」の役割を果たすのだろう
こうした技術は必然的に戦争用の機械にも使われるはずだ。オンデバイス自律性は中央権力や責任追及の回避に最適だ。ドローン操縦者と違って、人間を戦争犯罪で起訴することもできない。軍事契約はあまりにも巨大で抵抗しにくく、過酷な労働の除去がやがて人間そのものの全面的な排除へとつながる流れだ。"AI-Powered Automation for Every Decision" によって、人間が収益性のある生活を送れなくなる未来が透けて見える palantir.com
- MIT 系企業で Google が買収した Boston Dynamics はロボットを軍事化しないと約束したが、実際には DARPA、米国防総省など軍事投資の背景があり、とても信頼しにくい
- 実質的にあらゆる有用な技術には軍事利用の応用がある。なぜこれがそこまで激しい論争になるのか分からない
- このロボットが戦場でドローンと競争するのはかなり難しそうだ。おそらく 1000 機の自律ドローンに匹敵するほど高コストで、100 倍以上の時間と資源が必要になる。ドローンは実際の戦場（例: ウクライナ）ですでに小型かつ強力な役割を証明しており、動きがどれだけ敏捷になっても爆発ドローンから逃げ切るのは難しいと思う。たとえ Terminator が散弾銃を握っていても、1 体あたり 5 機のドローンを投入するのは簡単で、そうしたドローンは別の自律ロボットが作ることさえありそうだ
Google が革新的な製品をひっそり公開して、すぐ忘れ去られるというパターンが印象的だ。大々的な広告宣伝もなくブログ記事だけを出し、テックコミュニティ内で回って消え、数年後に「あれはどうなったんだっけ？」となる状況の繰り返しだ。しかしこの製品は格好よく見えるので、誰かがこれで素晴らしいスタートアップを作ってくれたらいいと思う
- Google のこうしたプロジェクトの主目的は規制当局を牽制することだ。こうした製品を収益化する意図ではなく、ただ意図的に金を燃やして次に進んでいるだけで、そんな自由があるのは独占企業だからこそだ
コーヒーを一杯飲みながら、API から返答が返ってくるのを待つつもりだ
ロボットが脱獄して銀行強盗のようなことをできないようにするには、GPU をプライベートな SOTA セキュリティ GPU クラウドへ移す方法しかないと思う
ロボットがプロンプトを実行しながら暴走しないように、Three Laws of Robotics のようなガードレールがあるのか気になる
- ロボット工学三原則は小説上の葛藤構造として作られたものだから、現実のシステムがああいう形では困る。実際、Gemini Robotics の安全設計は多層構造だ。モデルが何が安全かを推論し、VLA が実行オプションを出し、最後に低レベルコントローラ（速度や力の制限など安全上重要な機能を内蔵）が動作する流れだ
- この種の研究の一般的な用語は Constitutional AI で、多くのロボティクス VLA で実験・引用されている関連論文
- 現在適用されるガードレールは、三原則というより IEC 61508（国際機能安全規格）に近いと考えられる
- 電源を落とすコードのことだという話もある
- ロボット工学三原則は現実的には意味のないルールだという意見だ

Google DeepMind、ロボットデバイスに最適化されたAI「Gemini Robotics On-Device」を公開

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

オンデバイスモデルの強み

SDK提供により容易な導入とカスタマイズが可能

Model capabilities and performance

Adaptable to new tasks, generalizable across embodiments

Responsible development and safety

Accelerating innovation in robotics

関連記事

1件のコメント

Hacker Newsの意見