1 ポイント 投稿者 GN⁺ 14 일 전 | 1件のコメント | WhatsAppで共有
  • ロボットが物理環境を精密に理解し、自律的に行動できるよう設計された**強化された身体性推論(embodied reasoning)**モデルで、空間推論と作業計画能力を大幅に強化
  • 視覚・空間理解成功検知マルチビュー推論など、ロボットの高次判断機能を実行し、Google Searchや外部関数呼び出しを通じて複合タスクを直接処理
  • **ポインティング(Pointing)**機能により、物体検出・比較・経路推定など多様な空間ロジックを実行し、前バージョン比でハルシネーションを減らし、認識精度を向上
  • **計器読み取り(Instrument Reading)**機能を新たに導入し、Boston DynamicsのSpotロボットが産業施設の温度計・圧力計などを精密に解釈可能
  • 安全ポリシー遵守率の向上とコミュニティ協力を通じて、実環境での自律性と信頼性を高めた点が特徴

Gemini Robotics-ER 1.6 概要

  • Gemini Robotics-ER 1.6は、ロボットが物理環境を精密に理解し、自律的に行動できるよう設計された強化された身体性推論モデル
  • 空間推論、マルチビュー理解、作業計画および成功検知など、ロボットに不可欠な高次推論能力を強化
  • Google Search、Vision-Language-Action(VLA)モデル、外部のユーザー定義関数など、さまざまなツールを直接呼び出してタスクを実行可能
  • Gemini Robotics-ER 1.5およびGemini 3.0 Flashと比べ、空間および物理推論(ポインティング、カウント、成功検知)で顕著な性能向上
  • Boston Dynamicsと協力して開発された**計器読み取り(instrument reading)**機能を新たに追加

主な機能と性能向上

  • Gemini Robotics-ER 1.6はGemini APIGoogle AI Studioを通じて開発者に提供
    • GitHubのColabサンプルを通じて、モデル設定と身体性推論タスク向けプロンプト構成方法を提供
  • モデルは視覚的・空間的理解作業計画成功検知など、ロボットの高次判断を担う上位推論エンジンとして機能
  • **エージェンティックビジョン(agentic vision)**を活用し、視覚推論とコード実行を組み合わせることで、複雑な物理環境でも高い精度を達成

ポインティング(Pointing): 空間推論の基盤

  • ポインティングは身体性推論モデルの中核機能であり、物体検出・比較・経路推定など多様な空間ロジックに活用
    • 空間推論: 精密な物体検出と個数カウント
    • 関係ロジック: 集合内の最小項目の識別、「XをYの位置へ移動」のような関係定義
    • 運動推論: 軌道マッピングと最適な把持地点の識別
    • 制約条件の遵守: 「青いカップの中に入るほど小さい物体をすべて指し示せ」のような複合命令を処理
  • Gemini Robotics-ER 1.6はポインティングを中間ステップとして活用し、複雑なタスクを段階的に解決
    • 例: 画像内の物体数のカウント、数学的計算のための重要ポイント識別など
  • 実験結果では、1.6はハンマー・はさみ・ペイントブラシ・ペンチなど複数の物体を正確に識別し、存在しない物体(例: 手押し車、ドリル)は指し示さない
    • 1.5は一部の物体を誤認識したり、存在しない物体をハルシネーションしたりした
    • 3.0 Flashは近い性能を示すが、ペンチの認識精度は低い

成功検知(Success Detection): 自律性の中核エンジン

  • ロボットがタスク完了時点を認識する能力は、自律性の中核要素
  • Gemini Robotics-ER 1.6は**マルチビュー推論(multi-view reasoning)**を改善し、複数のカメラフィード間の関係を理解
    • 複雑な環境、遮蔽(occlusion)、照明問題、曖昧な指示などがあっても一貫したシーン解釈が可能
    • 例: 「青いペンを黒いペンホルダーに入れる」タスクが完了した時点を、複数視点の映像から正確に判断

計器読み取り(Instrument Reading): 実環境の視覚推論

  • 産業施設の温度計、圧力ゲージ、サイトグラスなどの計器を解釈する機能
    • Boston DynamicsのSpotロボットが施設内の計器を撮影し、Gemini Robotics-ER 1.6がそれを解釈
  • 円形圧力計、垂直レベルインジケーター、デジタル計器など、さまざまな形態の計器読み取りに対応
  • 読み取り過程では沈殿液の高さ、目盛り、単位テキスト、複数針など複合的な視覚要素を統合的に解釈
    • サイトグラスの場合はカメラ歪みを考慮して液面高さを推定
  • エージェンティックビジョンによりズーム(zoom)ポインティングコード実行を段階的に行い、**目盛り未満(sub-tick)**レベルの精密読み取りを実現
  • Boston Dynamics副社長のMarco da Silvaは、この機能によりSpotが現実世界の問題を完全自律で認識・対応できるようになると述べた

安全性向上

  • Gemini Robotics-ER 1.6は最も安全なロボティクスモデルと評価
    • Gemini安全ポリシーに対する遵守率が前世代より高い
  • 物理的安全制約の遵守能力を強化
    • 例: 「液体を扱うな」「20kgを超える物体は持ち上げるな」といった制約を空間出力(ポインティング)段階で反映
  • 実際の負傷報告に基づくテキストおよび動画の安全シナリオ認識テスト
    • Gemini 3.0 Flash比でテキスト +6%、動画 +10%向上
  • Safety Instruction Following評価では1.5比で大幅改善し、ポインティング精度も向上

ロボティクスコミュニティとの協力

  • Google DeepMindはGemini Robotics-ERの機能を継続的に改善するため、ロボティクスコミュニティとの協力を推進
    • 特定の応用分野で限界がある場合、10〜50枚のラベル付き画像を提出して失敗事例を共有するよう要請
    • これにより、今後のリリースで推論機能の堅牢性強化を目指す
  • Gemini Robotics-ER 1.6はGoogle AI Studioで今すぐ体験可能

1件のコメント

 
GN⁺ 14 일 전
Hacker Newsのコメント
  • 人間や動物の行動を模倣するレベルにまで、だんだん近づいてきている感じがする
    脳のように動作するオーケストレーションパターンを生成モデルの上に載せられて、推論速度さえ十分に速ければ、もっと多くのことができそうだと思う
    たとえば、ゲージを読むPythonスクリプトを生成して実行するのは今は遅いが、速度が100倍〜1000倍になれば、モデルが写真を撮って未来をシミュレーションし、自ら意思決定を行うループを作れるようになりそうだ

    • Taalas がモデルをチップ上に直接埋め込んで、超高速推論を実現する実験をしている
      ただし使っているモデルは古いLlamaなので品質は低いが、スケールできるなら本当にすごいことだと思う
    • TaalasはLLMをASICに変換し、1万トークン以上を高速に生成できることを示した
      結局は時間の問題にすぎないと思う
    • 人間の行動を模倣することが本当に価値のある目標なのかは疑問だ
      人間は狩猟や道具作りの進化的産物だが、実際の産業オートメーションは人型ではなく、R2D2のような実用的な形態へと発展してきた
      家庭用ロボットもそちらに近くなる気がする
    • 「slop画像」を「slopマシン」に入れたら「slop²」が出てくるのでは、という冗談だ
  • 一区画の土地とロボットの脚、腕、バッテリー、GPU、太陽光パネルを用意して、
    プロンプトで「この土地を管理して野菜を育てよ」と指示したらどうなるだろう、という想像だ

    • まだ結果は未知数だが、伝統的なプロンプトは「生めよ、増えよ」だった
    • 「この土地を管理せよ」という言葉が、カリフォルニア先住民が数千年にわたって行ってきた小規模火入れ管理を意味する可能性もある
      日本の里山、アフリカの輪作、ロシアの等高線農法など、地域ごとに固有のやり方があった
      結局、土地の手入れの方法は地域性と目標によって変わるという点を強調している
    • Proof of Corn のような実験が実際どうなっているのか気になる
    • 「終わった! これで地球全体が菜園になった」という冗談だ
  • GoogleとBoston Dynamicsが協力してモデルを共同開発しており、
    現在はHyundaiがBoston Dynamicsを買収して工場自動化にロボットを投入しようとしている

  • 圧力ゲージをカメラで撮ってグラフとして記録するソフトウェアがあればいいのにと思った
    消費者向けにそういうものがあるのか気になる

    • Claudeに頼めば一発で作ってくれる、ホームアシスタントのダッシュボード込みで
    • 家の周りのメーターにカメラが付いていたら、公務員がどう反応するか気になる
    • OpenCV を見ればよい
    • FrigateOpenclawでも可能だが、前者はやりすぎで、後者は少しだけやりすぎではない程度だ
  • アナログ計器をロボットに読ませるのが正しいアプローチなのか疑問だ
    単にデジタルセンサーに置き換えたほうがいいのではないかと思う

    • ただし実際に交換するとなると、エンジニアリング承認、工場停止、配線、SCADA連携など、コストと手順が莫大
      単純比較は難しく、こうした変更の複雑さは過小評価されがちだ
    • 設備を止めて交換する代わりにIoTカメラを設置するほうが、はるかに安価で信頼性が高いかもしれない
      「壊れていないなら直すな」という原則が通用する
  • 自分の「LLMs can control robots over MCP」システムにこれをつなげれば完璧になりそうだ
    LLMはコードを書くのが得意なので、その能力を活用してみようとしている
    新しく買った大型ロボットでテストする予定だ
    関連ポスト

    • 2週間ほど前に見たGoogle PaLM-E関連の動画を思い出した
      ロボット制御モデルとLLMをattention layerで結合した構造だった
  • レイテンシの部分がいちばん気になった
    一部の認識タスクではfrontier visionモデルより優れているが、ロボット用途ならHz単位の性能が重要だ
    おそらく遅いだろうと思う

    • AI Studioで試してみたところ、3.1 Proレベルの認識性能だが、かなり速い
      数秒だけ「考えて」結果を出す
      動物の脚の本数を数えたり、アナログ時計を読んだりするタスクでは、モデルの効率に対する性能が非常に高かった
  • 「最も安全なロボットモデル」という表現が興味深い
    Gemini Robotics-ER 1.6は前世代より安全ポリシー順守率が高いが、
    それでもまだ完全な商用段階ではなく、目標としての安全性を追求するアプローチが現実的だ

  • ロボット向けAIにはGPT-2、GPT-3レベルの内部モデルがあるかもしれないが、
    日常環境での失敗は致命的なので公開しにくいのだと思う
    たとえば食洗機で皿を1枚割るだけでも大きな問題と見なされるだろう

    • 週末にBicentennial Man(1999)を観たが、食洗機のシーンが印象的だった
      今の時点で観るのにちょうどいい映画だった
    • 皿を1枚割ることは、そこまで大きな問題ではないかもしれない
      初期のRoombaもよく散々だったが、市場は受け入れ、結局は進歩した
      完璧でなくても、まずデータを集めながら市場参入することが重要だと思う
    • 自分も食洗機で皿を割ったことが何度もある
      完璧なシステムなどない
    • 人間の自分ですら月に2回は皿を割る
      ロボットがそれよりましなら、むしろ改善
    • ロボティクスにはまだインターネット規模のデータが不足している
      GPT級モデルがあると主張するのは正直ではないと思う
  • GoogleがGemini Flash 3.1を正式公開するまで、
    今のモデルを使い続けるべきか悩んでいる