PaLM-E : Embodied Multimodal Language Model
(palm-e.github.io)- 大規模言語モデルは複雑な作業を実行できるが、ロボティクスの課題のように現実世界で一般的な推論を可能にするには、根拠づけが必要
- 現実世界の連続的なセンサー様式を言語モデルに直接統合し、単語と知覚(Percepts)のあいだの結び付きを構築するための EMLM を提案
- ビジュアル、連続的な状態推定、テキスト入力エンコーディングを組み合わせたマルチモーダル文を入力として受け取り処理
- 「引き出しからライスチップスを取ってきて」: 移動して引き出しを開け、探してつかんだ後、引き出しを閉めて持ってくる動作まで可能。途中で人が少し妨害しても再試行
- 最大の言語モデルである PaLM-E 562B + OK-VQA(視覚質問応答のための dataset)
1件のコメント
Embodied AIとは何か?