トヨタ研究所、ロボットに新しい行動を教える突破口を主張

(tri.global)

2 ポイント投稿者 GN⁺ 2023-09-21 | 1件のコメント | WhatsAppで共有

精密な操作作業を迅速に拡大するため、Toyota Research Instituteは Diffusion Policy ベースの生成AIでロボットの行動を学習させるアプローチを公開
この方式はロボット向け Large Behavior Models へ進むための段階であり、対話型AIにおけるLLMの役割をロボットの行動学習に適用しようとする試み
TRIは新しいコードを書かずに 新しいデータだけを提供 することで、液体を注ぐこと、道具の使用、変形可能な物体の操作など60以上の技能を学習させたという
学習は教師の 触覚デモンストレーション と目標の言語説明を組み合わせて行われ、数十回のデモだけで自律展開可能な行動を作れる点が核心
目標は2023年末までに数百、2024年末までに 1,000の技能 であり、Drakeとカスタム制御スタックにより安全保証も同時に設計

Diffusion Policyでロボット行動学習を高速化

Toyota Research Instituteは、ロボットに新しい精密技能を迅速かつ安定的に教える 生成AIアプローチ を発表
このアプローチはロボット向け Large Behavior Models(LBMs) 構築に向けた段階であり、対話型AIにおけるLarge Language Models(LLMs)の役割になぞらえられる
従来の最先端手法には、新しい行動を教えるうえでいくつかの制約があった
- 学習が 遅く、一貫性が低い
- 効率が低く、高度に制約された環境での狭い作業にとどまることが多い
- ロボット工学者が複雑なコードを何時間も書いたり、多くの試行錯誤を重ねたりする必要があった

新しいコードなしで60以上の技能を学習

TRIのロボット行動モデルは、教師の 触覚デモンストレーション と目標に関する言語説明を併用する
その後、AIベースの Diffusion Policy によって実演された技能を学習する
- 新しい行動は数十回のデモだけで自律展開が可能
- 学習結果は、一貫性があり再現可能で高性能な行動を迅速に作ることに焦点を当てる
TRIはすでに60以上の精密技能をロボットに教えている
- 例としては 液体を注ぐこと、道具の使用、変形可能な物体の操作がある
- 新しいコードを書くことなく 新しいデータの提供 だけで達成した
目標は2023年末までに数百、2024年末までに 1,000の技能
新しい技能は単なる “pick and place” を超え、さまざまな方法で世界と相互作用する行動を含む
- 長期的には、日常的で予測不可能かつ絶えず変化する環境で人を支援するロボットに使える可能性がある

カスタムプラットフォームとDrakeベースの安全設計

TRIとColumbia UniversityのProfessor Songグループは、行動学習のための生成AIアプローチである Diffusion Policy を開発
- Diffusion Policyは2023年のRobotics Science and Systems conferenceで発表された
TRIのロボットプラットフォームは、精密な 双腕操作 作業のためにカスタム設計されている
- 触覚フィードバックと触覚センシングを可能にすることに重点を置く
TRIは Drake をロボット工学向けのモデルベース設計ツールおよびシミュレーションプラットフォームとして使用
- 内部のロボットスタックは、Drakeの最適化およびシステムフレームワークを基盤として構築されている
- Drakeはオープンソースとして公開され、ロボット工学コミュニティ全体の取り組みを促進するために提供されている
安全性はTRIのロボット研究における中核的な設計要素
- システムには、Drakeとカスタムのロボット制御スタックによって駆動される保護機構が含まれる
- ロボットが自分自身や環境と衝突しないよう、安全保証 を守るよう設計されている

1件のコメント

GN⁺ 2023-09-21

Hacker News の意見

大学院と業界でロボット学習コミュニティにいた立場として、ここで TRI が称賛の大半を受けているのは十分理解できるが、核心的な功績もきちんと押さえておきたい
この進展の中心には、Columbia の Shuran Song 教授の研究室が開発し切り開いた Diffusion Policy [1] がある。元のプロジェクトサイト [2] もぜひ見る価値があり、現実世界での難しい実験が多数含まれている
今年の R:SS カンファレンス [3] では Best Paper Award のコミュニティ内での有力候補で、私たちの研究室やロボット工学科のほかの学習系研究室もこの論文を徹底的に読み込んだ。行動クローニング／模倣学習プロジェクトをやめて、マルチモーダルな行動空間をはるかに自然に扱うこのアプローチへ完全に方向転換した人たちも知っている
Song 教授は現在のロボット工学で本当に優れた研究者であり、IRP [4] のように現実世界へエレガントに拡張できる優れたアプローチをいくつも生み出している。IRP は R:SS 2022 Best Paper を受賞しており、FlingBot [5]、Scaling Up Distilling Down [6] も見る価値がある
[1] - https://arxiv.org/abs/2303.04137
[2] - https://diffusion-policy.cs.columbia.edu/
[3] - https://roboticsconference.org/program/awards/
[4] - https://irp.cs.columbia.edu/
[5] - https://flingbot.cs.columbia.edu/
[6] - https://www.cs.columbia.edu/~huy/scalingup/
- 公平に見れば、TRI も Song 教授とリンク先の論文に功績を認めている。その論文にも TRI が共同研究機関として掲載されている
  「Diffusion Policy: TRI と Columbia University の Song 教授グループの共同研究者たちは、行動学習のための新しく強力な生成 AI アプローチを開発した。Diffusion Policy と呼ばれるこのアプローチは、実演による簡単で迅速な行動教育を可能にする」
- Diffusion Policy も IRP も、TRI との共同研究だったように見える
- 誰か拡散（diffusion）を分かりやすく説明してくれないだろうか。オートエンコーダ、トランスフォーマー、畳み込みニューラルネットワークを理解している人向けでもよい
  上で挙げられている代替手法より、なぜはるかにうまく機能するのかが気になる
- Song 教授の研究室の一部の研究者も Toyota と一緒に仕事をしていたようだ
興味のある人向けに、Russ Tedrake の YouTube チャンネルがある: https://www.youtube.com/@underactuated5171
ここには 6.4210 (2023) Robotics Manipulation、6.8210 (2023) Underactuated Robotics の講義が上がっている
Russ Tedrake の最近の仕事を見られてうれしい。彼のオンライン講義 Underactuated Robotics は、ロボット工学の複雑さをつかむのにとてもよい講義だ
HN でよく推薦されるロボット学習の仕事は、だいたい「LLM をロボットに雑につなげればよい」という程度だが、それよりはるかに深い知識を持つ人が取り上げられていてよい。混沌とした現実世界でまともな具身化エージェントを作るには、言語学習だけを解決しても足りない
ウェブサイトが読み込まれないが、Toyota Research の YouTube で動画を見つけた: https://www.youtube.com/watch?v=w-CGSQAO5-Q
- 動画の 2:40 あたりで「ロボットのための幼稚園」と説明していて、興味深い見方だ
  標準的な学習技術プロトコルがあれば、新しいタスクの学習をクラウドソーシングできるのだろうか。望むタスクに入札し、解決した人が報酬を受け取り、全員が恩恵を受けるという方式だ。タスクのロングテールは非常に長いので、中央の研究所が一つですべて処理するのは難しそうだ
Google も1か月ほど前に似たようなことをしていて、HN にも上がっていた [1]
力覚フィードバックをどの程度使っているのか気になる。動画に出てくる大きく丸い柔らかい物体は、圧力センサーがたくさん入った大きな指のようなものなのだろうか。面圧センサーは1980年代から作られていたが、当時はその大量のデータをどう使えばよいのか分からなかった。今ではセンサーデータが多すぎることは、はるかに小さな問題になっている
以前、ロボットアームにエンドレンチを取り付けてこの問題に取り組んだことがある。ボルトの頭を手探りで探し、レンチをはめてから回すというアイデアだった。6自由度の力センサーがあれば十分だったが、ディープラーニング以前だったのであまり先には進めなかった。それでもレンチロボット装置は作った
[1] https://news.ycombinator.com/item?id=37167698
- その柔らかい物体は、実質的には内部にカメラが入った膨らませた風船で、カメラが風船の変形を観察している: https://punyo.tech
本当に印象的。Boston Dynamics のデモよりもずっとそう見える
パンケーキをひっくり返すのは、パンケーキごとに違うので非常に難しい。こういう動画が選別された場面だというのは分かるけれど、単なるデモだけでロボットに学習させてこれをやらせるのは、とてつもない飛躍のように感じる
- パンケーキ返しは2010年にはすでにやっていた。人間にとって印象的に見えることがロボットには簡単で、その逆もまた同じ: https://youtu.be/W_gxLKSsSIE?si=HDyNXe1Ys_eFXiVU
  もう一つの例として、ロボットのジャグリングは1990年代にはすでにできていたが、今でも人間のようにどんなドアでも安定して開けられるロボットはない。一種の Moravec のパラドックスに似ている
- 一般人向けに言うと、こうしたロボットを学習させる最も効率的な方法は、作業方法を示す数十億本の動画を食わせることなのだろうか？
- 肉体労働の仕事は非常に長い間安全だと思っていたが、そうではないかもしれない。政策を作る人たちが、人々にやることがない世界がどんな姿になるのかを真剣に考えていることを願う
Google がやっていた PaLM-E のような取り組みに似て聞こえる: https://blog.research.google/2023/03/palm-e-embodied-multimodal-language.html
ロボティクスにとって本当に興味深い時期だ
- これは PaLM-E よりずっと良さそうに見える。使っているロボットの能力が高く、タスクもはるかに複雑だ
  しかも、人間がロボットを操縦して見せるときと同じ速度で動作を実行している。PaLM-E のデモは実際には苦痛なほど遅く、すべて早回しの動画として見せていた
汎用ヒューマノイドロボットに到達する方法は、かなりこういう形に近くなる気がする
たとえば作業現場に Boston Dynamics スタイルのヒューマノイドロボットがいて、ここではレンガ職人だとしよう。現場外の開けた空間には全方向トレッドミルの床、周囲のカメラと深度センサーがあり、人間は Hollywood 式のモーションキャプチャースーツと VR ヘッドセットを着けて、ロボットのカメラで見える視界を見る
その人は現場で行うようにレンガの山まで歩いていき、つかんで置く動作をする。ロボットは現場でリアルタイムに動き、人間の動作を模倣する。うまくやるには小道具が必要なのか、それとも長年の現場での筋肉記憶だけで十分なのかは分からない
すべてのデータを記録し、誰かが映像ストリームを見ながら実行される各動作にラベルを付ける。その後、全部を機械学習アルゴリズムに入れて、最終的には建築図面だけをロボットに送り、「この壁を作って」と言える段階まで進むという流れだ
- 前半の3/4ほどは2008年の映画 Sleep Dealer とほとんど同じなので、それを参考にしたのかと思った
- ただ、私の知る限りでは、人間オペレーターの動きと緩く物理的に対応する、もっと粗い動きの機械でも、この方式の成熟した実装はまだない。たとえばデュアルジョイスティックで操作する掘削機のような機械だ
- 短期的にはそうかもしれないが、長期的には違うと思う
  おそらくチームを送り込んで作業現場をデジタル化し、デジタルツインを作ることになる。建築家はすべてをこのツインにマッピングし、コンピューターシステムは施工手順をシミュレーションする。その後ロボットを現場に投入し、必要なら微調整されたモデルを受け取って自動で建てることになるだろう
- 以前、こういう概念が出てくる小説か短編を読んだことがある。ロボットは学習のために現場で操縦され、その後は自力で解き放たれた。それ以外の筋書きや作者は覚えていない
- そう、それは強化学習と呼ばれる
「大規模言語モデル」という言葉を使う理由は、ウェブ全体や Library of Congress などから来る膨大な量の文章のおかげで、LLM が学習できる巨大なデータセットを持つからだと理解している。ここでの「大規模」はその部分を指している
ところで、この動画で「大規模行動モデル」と言うとき、どこが大規模なのだろうか？同じように巨大な量の行動入力データはどこから得るのか？大きな研究室で数十人が行動を実演しているように見えるが、それは良いとしても、この人数でデジタルな文章コンテンツすべてに匹敵するデータを作れるとは思えない
かなり格好よく見えるが、誰かが MIT の専任教授でありながら同時に TRI の専任副社長でいられるのかはよく分からない
こうした二つの職の兼務は以前にも見たことがあるが、週70時間以上働いているのでなければ、どう実用的なのか理解しにくい
- おそらく週40時間以下しか働かなくても、その分野であまりに専門家なので、その人の10時間分の仕事を他の人のフルタイムで置き換えられない場合なのだろう
  ソフトウェア工学にたとえるなら、John Carmack が月に6〜7日だけプロジェクトで働くとしても、喜んで良い給与と役割を与えたいと思うだろう。彼は John Carmack だからだ

トヨタ研究所、ロボットに新しい行動を教える突破口を主張

Diffusion Policyでロボット行動学習を高速化

新しいコードなしで60以上の技能を学習

カスタムプラットフォームとDrakeベースの安全設計

関連記事

1件のコメント

Hacker News の意見