RT-2: Vision-Language-Action Models

xguru · 2023-08-02T11:05:01+09:00

"Robotics-Transformer 2"：ウェブの知識をロボット制御へ伝達インターネット規模のデータで学習されたビジョン・言語モデルを、E2Eロボット制御に直接統合ロボットの動作をテキストトークンに変換し、視覚・言語データモデルとともに使える別の言語のように整理することで、作業命令をアクションへ変換（従来は学習していなかった）まったく新しい物体をロボットに提示しても、よく理解して作業を実行できる "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 ポイント投稿者 xguru 2023-08-02 | 2件のコメント | WhatsAppで共有

"Robotics-Transformer 2"：ウェブの知識をロボット制御へ伝達
インターネット規模のデータで学習されたビジョン・言語モデルを、E2Eロボット制御に直接統合
ロボットの動作をテキストトークンに変換し、視覚・言語データモデルとともに使える別の言語のように整理することで、作業命令をアクションへ変換
（従来は学習していなかった）まったく新しい物体をロボットに提示しても、よく理解して作業を実行できる
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2件のコメント

xguru 2023-08-02

Google’s RT-2 AI model brings us one step closer to WALL-E

Ars Technicaの記事タイトルのほうが説明しやすいですね。LLMの進歩は、ロボット制御において新たな革新になりそうです。

xguru 2023-08-02

Google、自身をプログラムできるロボットをテスト中
 ChatGPT for Robotics：設計原則とモデル能力

RT-2: Vision-Language-Action Models

関連記事

2件のコメント