RT-2: Vision-Language-Action Models
(robotics-transformer2.github.io)- "Robotics-Transformer 2":ウェブの知識をロボット制御へ伝達
- インターネット規模のデータで学習されたビジョン・言語モデルを、E2Eロボット制御に直接統合
- ロボットの動作をテキストトークンに変換し、視覚・言語データモデルとともに使える別の言語のように整理することで、作業命令をアクションへ変換
- (従来は学習していなかった)まったく新しい物体をロボットに提示しても、よく理解して作業を実行できる
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
2件のコメント
Google’s RT-2 AI model brings us one step closer to WALL-E
Ars Technicaの記事タイトルのほうが説明しやすいですね。LLMの進歩は、ロボット制御において新たな革新になりそうです。
Google、自身をプログラムできるロボットをテスト中
ChatGPT for Robotics:設計原則とモデル能力