PaLM-E : Embodied Multimodal Language Model

xguru · 2023-03-08T12:11:57+09:00

大規模言語モデルは複雑な作業を実行できるが、ロボティクスの課題のように現実世界で一般的な推論を可能にするには、根拠づけが必要現実世界の連続的なセンサー様式を言語モデルに直接統合し、単語と知覚（Percepts）のあいだの結び付きを構築するための EMLM を提案ビジュアル、連続的な状態推定、テキスト入力エンコーディングを組み合わせたマルチモーダル文を入力として受け取り処理「引き出しからライスチップスを取ってきて」: 移動して引き出しを開け、探してつかんだ後、引き出しを閉めて持ってくる動作まで可能。途中で人が少し妨害しても再試行最大の言語モデルである PaLM-E 562B + OK-VQA（視覚質問応答のための dataset）

(palm-e.github.io)

15 ポイント投稿者 xguru 2023-03-08 | 1件のコメント | WhatsAppで共有

大規模言語モデルは複雑な作業を実行できるが、ロボティクスの課題のように現実世界で一般的な推論を可能にするには、根拠づけが必要
現実世界の連続的なセンサー様式を言語モデルに直接統合し、単語と知覚（Percepts）のあいだの結び付きを構築するための EMLM を提案
ビジュアル、連続的な状態推定、テキスト入力エンコーディングを組み合わせたマルチモーダル文を入力として受け取り処理
- 「引き出しからライスチップスを取ってきて」: 移動して引き出しを開け、探してつかんだ後、引き出しを閉めて持ってくる動作まで可能。途中で人が少し妨害しても再試行
最大の言語モデルである PaLM-E 562B + OK-VQA（視覚質問応答のための dataset）

1件のコメント

xguru 2023-03-08

Embodied AIとは何か？

シミュレーター（Simulator）という3D仮想環境（Environment）にエージェントを生成し、さまざまな課題（Task）を実行させて学習した後、現実のロボットのような機械へ転移し（Sim2Real）、現実でも特定の課題（Task）をうまく遂行できるようにする分野です。

PaLM-E : Embodied Multimodal Language Model

関連記事

1件のコメント