Physical Intelligenceの初の汎用ロボットポリシー π0、洗濯物たたみまで実演

(physicalintelligence.company)

1 ポイント投稿者 GN⁺ 2024-11-12 | 1件のコメント | WhatsAppで共有

Physical Intelligenceは、ロボットがテキスト指示を受けて複数の物理作業を行う汎用ロボット基盤モデル π0(pi-zero) を公開
π0は、インターネット規模の視覚・言語事前学習とOpen X Embodiment Dataset、8種類のロボットで収集した器用な操作作業データを組み合わせて学習
モデルは画像・テキスト・行動を同時に処理し、flow matchingベースの連続行動出力により、ロボットのモーター命令を毎秒最大50回生成
後処理学習を経ると、洗濯物たたみ、テーブル片付け、箱の組み立てのように状態が毎回変わる複雑な操作作業まで実行可能
5つの評価タスクでπ0はOpenVLA、Octo、π0-smallより高い平均性能を示したが、長期推論・計画、自律的改善、堅牢性、安全性は依然として今後の課題として残っている

π0が目指す汎用ロボットポリシー

Physical Intelligenceは過去8か月にわたり、汎用ロボット基盤モデル π0(pi-zero) を開発
目標は、ユーザーがLLMやチャットボットに依頼するようにロボットへ望む作業を伝えると、ロボットが物理世界でその作業を実行できるようにすること
π0はLLMのように幅広く多様なデータで学習され、テキスト指示に従うが、LLMと異なり画像・テキスト・行動を同時に扱う
モデルはロボットの身体化された経験から物理知能を学習し、新しいアーキテクチャを通じて低レベルのモーター命令を直接出力
複数のロボットを制御でき、望む作業をプロンプトで指示したり、難しい適用シナリオに合わせてファインチューニングしたりできる

狭い自動化を超える理由

現在のロボットは依然として狭い専門領域にとどまっている
- 産業用ロボットは、組立ラインで同じ位置を溶接したり、同じ物を同じ箱に入れたりする反復動作向けにプログラムされている
- こうした単純動作にも多くの手作業エンジニアリングが必要
- 家庭のような散らかった現実環境でより複雑な行動を実行するのは、はるかに難しい
ロボットがユーザー指示を学習して従うには大規模データが必要
- 言語モデルや他の基盤モデルはWeb上の大量の文書データを活用する
- ロボットデータにはこれに相当する大規模リポジトリがない
- 新しい技能を学習させるには、特定のロボットと特定のアプリケーションに合わせた大量のデータを収集する必要がある
単一の汎用ロボットポリシーが複数の技能と複数のロボットを扱えるなら、各ロボットとアプリケーションごとに必要なデータ量を減らせる
言語モデルが多様な事前学習を土台に専門的な言語処理システムを置き換えてきたように、汎用ロボットポリシーは物理知能のためのロボット基盤モデルの役割を担うことになる

学習データとロボット構成

π0はこれまでで最大のロボット相互作用データセットで学習された初のプロトタイプ汎用ロボットポリシー
学習全体の混合データには、オープンソースデータとPhysical Intelligenceが収集した8種類のロボットの器用な操作作業データが含まれる
学習データ構成
- Open X Embodiment Dataset
- インターネット規模の事前学習
- 複数の器用なロボットで構成されたπ Dataset
- ロボット構成にはUR5e、Bimanual UR5e、Franka、Bimanual Trossen、Bimanual Arx、Mobile Trossen、Mobile Fibocomなどが含まれる
含まれる作業タイプ
- 食器の片付け
- 封筒に物を入れる
- 衣類をたたむ
- ケーブル配線
- 箱の組み立て
- 電源プラグを差し込む
- テイクアウト用ボックスに料理を詰める
- ごみを拾って捨てる
- 作業選定の目的は特定のアプリケーション1つを解くことではなく、モデルに物理的相互作用への一般的な理解を与えること

インターネット規模の意味理解と連続行動出力

π0は複数のロボットデータで学習されると同時に、事前学習済みの視覚・言語モデル(VLM) から意味知識と視覚理解を受け継ぐ
VLMはWeb上のテキストと画像をモデル化するよう学習されており、GPT-4VやGeminiが広く使われる例
π0はより小さい30億パラメータVLMを出発点として使い、リアルタイムの器用なロボット制御向けに調整
VLMはWebから得た意味知識を伝えられる一方で、元々は離散的な言語トークンしか出力しない
器用なロボット操作には高頻度のモーター命令出力が必要
- π0は毎秒最大50回モーター命令を出力する必要がある
- そのため、diffusionモデルの変種であるflow matchingにより、事前学習済みVLMへ連続行動出力を追加
最終モデルは視覚・言語・行動のflow matchingモデルであり、その後高品質なロボットデータで後処理学習を行い、複数のダウンストリームタスクを解決する

後処理学習で扱った器用な作業

より複雑で器用さが必要な作業では、モデルをダウンストリーム課題に合わせてファインチューニングする必要がある場合がある
高品質データで難しい作業向けにファインチューニングする過程は、LLM設計で使われる後処理学習に似ている
事前学習はモデルに物理世界を教え、ファインチューニングは特定作業をうまく実行できるようにする
洗濯物たたみ
- π0は移動ロボットまたは固定された双腕ロボットを用いた洗濯物たたみ作業向けにファインチューニングされた
- 目標は衣類をきれいな山にまとめること
- テーブル上に平らに置かれたTシャツ1枚であれば、あらかじめ定めた動作の反復でたためる場合がある
- もつれた洗濯物の山は毎回さまざまな形にしわくちゃになっているため、同じ腕の動作を繰り返すだけでは不十分
- 後処理学習後、ロボットは乾燥機から衣類を取り出してテーブルへ運び、山になるようにたためる
- 映像は単一ポリシーが完全自律で動作する無編集の場面
- 多様なデータで学習した結果、人がさまざまな形で介入しようとしてもロボットは回復できた
- Physical Intelligenceの知る限り、従来のロボットシステムにはこのレベルの複雑さで当該作業を実行した例はない
テーブル片付け
- π0はテーブル上の皿とごみを片付ける作業にもファインチューニングされた
- 皿、カトラリー、カップはbussing binに入れ、ごみはごみ箱に入れる
- この作業では非常に多様な物体を扱う必要がある
- 大規模かつ多様なデータ学習の結果として、複数の戦略が現れた
- 物を1つずつつかむ代わりに、複数の皿を重ねて一緒に入れられる
- 皿をbussing binに入れる前に、皿の上のごみを振ってごみ箱に落とせる
箱の組み立て
- 平らな段ボール箱を折って立ち上げ、側面を折った後、ふたを差し込まなければならない
- 各折り工程や差し込み工程は予期せず失敗する可能性があり、ロボットは進行状況を見ながら動作を調整する必要がある
- 部分的に折られた箱が再び開いてしまわないよう、双腕とテーブルを使って箱を支える必要がある

OpenVLA・Octoとの評価比較

π0は学術界で提案されたロボット基盤モデル OpenVLA と Octo と比較された
OpenVLAは70億パラメータのVLAモデルで、離散化された行動を使用する
Octoは9300万パラメータのモデルで、diffusion出力を使用する
評価タスクは一般的な学術実験よりも複雑に構成されている
- OpenVLA評価の作業は通常「ナスを鍋に入れる」のような単一ステップ行動
- π0評価でもっとも単純なテーブル片付け作業ですら、複数の物体をごみ箱またはbussing binに分類する必要がある
- より複雑な作業では、複数ステップ、変形可能物体の操作、環境状態に応じた複数戦略の選択が求められる
評価では完全成功に1.0点を与え、部分的に正しい実行には部分点を与えるルーブリックを使用
- たとえば物体の半分を片付ければ0.5点が与えられる
5つの評価タスク結果
- Bussing Easy(UR5e)
  - π0: 0.971
  - π0-small: 0.443
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0.343
  - Octo: 0.043
- Bussing Hard(UR5e)
  - π0: 0.875
  - π0-small: 0.333
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Shirt Folding(Bi-ARX)
  - π0: 1.000
  - π0-small: 0.500
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Grocery Bagging(UR5e)
  - π0: 0.786
  - π0-small: 0.271
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Toast out of Toaster(Bi-Trossen)
  - π0: 0.750
  - π0-small: 0
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- π0-smallはVLM事前学習を使わない4億7000万パラメータモデル
- OpenVLAとOctoはもっとも簡単な「Bussing Easy」タスクでのみ0以外の性能を示し、全体ではπ0がもっとも高い性能を示した
- フルサイズのアーキテクチャとVLM事前学習を使うことで、π0-small比で性能が2倍以上向上する

残された課題と協業の方向性

Physical Intelligenceの目標は、どのロボットでもどの作業でも実行できるよう制御できる基盤モデルを開発すること
現在の実験は、複数のロボットを制御し、洗濯かごから衣類をたたんだり段ボール箱を組み立てたりするなど、従来のロボット学習システムが成功裏に実行できなかった作業をこなせることを示している
汎用ロボットポリシーはまだ初期段階であり、次の研究フロンティアが残っている
- 長期推論と計画
  - 自律的な自己改善
  - 堅牢性
  - 安全性
  - Physical Intelligenceは複数の企業およびロボット研究所と協業を進めている
  - 遠隔操作と自律性のためのハードウェア設計を改善している
  - パートナーデータを事前学習モデルに統合し、特定プラットフォーム向けに調整されたモデルアクセスを提供しようとしている
  - 実アプリケーションに配備されたロボットでのデータ収集を拡大中の企業との協業に関心を持っている

1件のコメント

GN⁺ 2024-11-12

Hacker News の意見

暗黙の目標は、洗濯物やその他の家事労働を代わりにやることのように思える。人間の満足は結局そういうところで解消されうる
経済や価値指標は結局、人間の幸福／満足に関するもので、お金も人々が欲しがるから価値が生まれる。人々が十分に裕福になると、家政婦や料理人を雇ったり、即席食品を買ったりして家事を外注する
過去50年間、西側企業は女性の労働市場参入によって無料のブーストを受けた。以前は1人に1世帯の維持費を払っていたのが、今では2人に同じ世帯維持費を分けて払い、労働者を2倍得たようなものだ
そのため、ほとんどの家庭は週35時間を失ったのに、家事の量はそのままだ。全員に家政婦を与えることはできないが、ロボット家政婦なら与えられるかもしれない
レンガ、暖房、電気のように、ほとんどのイノベーションや技術は結局家の中に入り、生活をより快適にする。本物のロボット家政婦は、洗濯機の設計変更、毎日よその家で食事をすること、防塵表面のような社会的変化として来ると思っていたが、このロボットはかなり興味深く見える
この見方が西側の中流階級中心だということは分かっているが、60億人が結局それ以外に何を目標にしているのだろうと思う
- 女性たちが労働市場に入ったとき、経済がどこでブーストを受けたのか分からない。ドイツの戦後の経済奇跡は、ほとんど女性なしで起きた
  1970年代初めに女性たちがより多く労働市場に入ったときは、石油危機のせいでマクロ経済条件が悪く、切り分けて見るのは難しいが
  それでも労働者が増えると賃金は下がり、より多くのブルシット・ジョブが作られる方向に進んだ。男性もブルシット・ジョブを作り、担っていることは確かだ
  今では家と家族を支えるには2つの給料が必要だ。大した進歩だ
  スーパーでは列が長くてもセルフレジをボイコットして、親切なレジ係が働き続けられるようにしている
- 本当の最底辺の目標は、ロボットとセックスすることかもしれない。インターネットもあらゆる知識への入り口になると言われていたが、結局ポルノ用になったように
- 労働需要が固定されているなら、1世帯の男性＋女性の労働供給が2倍になると、賃金は原理的には下がりうる。ただし、需要が固定である必要はない
  これを雇用の椅子取りゲーム理論と呼びたい。1954年より2024年に労働可能人口が2倍になったら、各人の稼ぎが減るという意味だろうか？移民が入ってくると、移民1人ごとに国内労働者1人が失業するという意味だろうか？
  証拠はそうではないと言っており、経済には労働需要を増やす他の変化も同時にある。移民が失業と賃金に与える影響、特に短期の大きなショックに関する文献を見ると、かなり明確だ
  女性雇用増加の効果を扱った研究はよく知らない。数十年かけてゆっくり起きた現象なので、はるかに研究しにくいと思う。そしてこれは西側だけの話ではなく、世界各地で起きたことだ
- Physical Intelligence チームは非常に優秀だが、目標を達成するのに十分な資金を集められない気がする。こうした技術開発に3,000万ドルかかると言っているのが問題で、実際には少なくとも10億ドル、おそらく50億ドル近くになるだろう
工場や閉じた環境では急速に良くなっているが、それ以外の現実世界では、人間の監督なしに実用的なロボットやAIはない。物理的なものを自動化する仕事をしていて、そう確信するようになった
あのロボットが最初にやることは、世界に対する認識が足りず、幼児が入った乾燥機を回すことかもしれない
そうなれば汎用家庭用ロボットは終わりだ。あるいはロウソクを倒したり、一見些細でも文脈上はひどく危険なことを台無しにしたりするかもしれない
自分も汎用機械を夢見ているが、不可能かもしれないし、可能だとしてもまだずっと先だと思う
- HNで、自動運転車が人を殺す事故を起こした瞬間に自動運転車は終わる、と自信満々に予測していたコメントをたくさん見た記憶がある
  実際に事故はあり、訴訟や規制当局の調査が続いたが、終わりはしなかった。まもなく発足する米政権では、ロボットと自動化拡大に対する法的・規制上の障壁がはるかに減ると予想している
- 監督が必要だとしても、ロボットが洗濯物を干して乾かすのを見ているほうが、自分でやるよりましだ
  昔の言葉のように「仕事は大好きだ。一日中見ていられるから」
- 最初はカメラを付けて、海外の誰かに作業前に周囲を確認してもらうのはどうだろう？安価で、より安全にできる
- 同意する。これまで温室でトマトを摘み、植物を管理する比較的単純な農作業でさえ、生産レベルでこなすロボットを見たことがない
  すべて安い外国人労働力がやっている。その程度でさえ自動化が難しいなら、汎用家庭用ロボットにはまだ大きな期待はしにくい
  ただしこの記事の動画はかなり有望に見えるし、この技術が温室でどう機能するのかは見てみたい
- ジェットコースターも一度故障して何人かが死んだ途端に禁止されたのと、まったく同じ流れになるだろう
洗濯ロボットの難しい問題は、服をたたむことではなく 洗濯室に入ること
欧州の都市に住んでいると、空間が最大の制約になる。パリの家賃は月1㎡あたり30ユーロ。
洗濯室は狭く、このロボットは幅がありすぎて、うちの洗濯室のドアを通れないはず。アイロン台が折りたたみ式なのには理由がある。毎回設置しなければならないからだ。このロボットにはそれもできないし、洗濯機用の柔軟剤ボトルも扱えない。
たたむためだけに空いた1㎡のテーブルを置いておくというのは、ほとんどの人にとって幻想だ。コインランドリーが存在する理由も、家によっては洗濯機を置くスペースすらないからだ。
洗濯室は湿度と換気のために別空間になっており、たいてい築30年以上の住宅設計では、ロボットのアクセス性ではなく、機能上できるだけ小さく作る方向で配置されていた可能性が高い。
集合住宅ではない家に住む人でも、洗濯室が地下にあり、階段や段差でしかアクセスできない場合が多い。
二足歩行ロボットが目前に迫っている状況で、建築家や建設時のアクセシビリティ基準が十分に速く変わるとは思えない。家庭用ロボットの登場に必要な余裕スペースは、空間コストの高さのために、すでに何度も使い切られている。
- 下にスクロールしてみると、これは 汎用ロボット だ。歩き回って食卓を片付けたり、段ボール箱を折りたたんだりできる。
  柔軟剤を扱えないと断言するのは難しいし、V2ならアイロン台も設置できる可能性が高い。
  サイズ面でも、今は冷蔵庫、洗濯機、食器洗い機、さまざまな時短家電より小さい。もちろん、築数百年の家が多い歴史都市には必ずしも合わないだろうが、たいていの家ではありふれた家電だ。
  まだ小型化の努力も入っていない。研究用プロトタイプの段階を抜ければ、賢い工学でずっと小さくできるかもしれない。
  もう一つの問題はコストだ。こうしたロボットはたいてい 10万ドル ほどで、それには相応の理由がある。これを下げられるだろうか。そう願いたい。
- コインランドリーは、機械が代わりにやってくれない5分程度の作業のために、ほぼ2時間近くそこにいなければならず、かなり面倒だ。
  一方で、洗濯・たたみサービスに出すのは高価なぜいたくだ。コインランドリーが全工程を自動化できれば、洗濯・たたみの価格が下がり、週に数時間しか使わない機械を家に置きたい人は減るかもしれない。
  あるいはコインランドリーをカフェやバーに併設して、家事を休憩や社交の機会に変えることもできる。ただし、世界の大半はまだその程度の文明化に備えられていない。
- 快適なアパートや自分の洗濯機を買う余裕のない人たちが、なぜ洗濯ロボットを使うと思うのか分からない。
  最終的には洗濯機に統合されて、汚れた服を入れると清潔でたたまれた服を取り出せる一つの装置になるのではないかと思う。既存の洗濯機そのものは、必ず現在のような分離した形のまま維持しなければならないほど高価な部品ではない。
- パリの月1㎡あたり30ユーロというのは、十分に広いアパートに限った話だ。
  20㎡のアパート は850ユーロ未満では出てこないので、1㎡あたり約42ユーロになる。もちろん、こういう家は洗濯物たたみロボットどころか、洗濯機すら入れるには小さすぎる。
精度をもう少し上げれば、優れた 実験室自動化ツール になる。世界中の実験室は、手作業の実験業務をこなすロボットに100万ドルを払う意思があるはずだ。
実験室の作業はそこまで難しくもない。多くの作業は、手順が明確に定義された確立済みのプロトコルに基づいている。別途プログラミングせずに物をつかみ、試験管作業をこなせるロボットは大ヒット製品になると思う。
- 同意する。彼女は生化学の学位を持っていて、そういう実験室で働いている。サンプルの収集、準備、入力、機器の基本的なメンテナンス、一部の分析、結果をシステムに入れたり医師に電話したりする事務・秘書的な業務が含まれる。
  私には全部自動化できるように見える。
  ただし地域に大きく左右される。米国ではかなり早く筋が通るだろうが、彼女は賃金の高くない小さなEU加盟国に住んでおり、この仕事は学生に人気の ジュニアポジション だ。そのポジションのコストは年約2万5千ドル。
  年2万5千ドルのキャッシュフローを置き換えるために100万ドルを投資すると、一般的な割引率では正味現在価値はマイナスになる。12万ドルの賃金を100万ドルのロボットで置き換えられる場合には筋が通る。
  ロボットを監督する仕事も残ると思う。大規模な集中型生産拠点では、1人が複数のロボットを監督できるので妥当だが、小規模で分散した生産拠点では必ずしもそうではない。多くの実験室は、作業の時間的制約のために顧客の近くに点在している必要があり、そういう構造なのだと思う。もちろん変わる可能性はある。
- あまり期待しすぎない方がいい。汎用ロボットにとっては、ボルトにナットを締めることすら大きな問題だ。
  結局、原始的なロボットハンドで何でもできる ロボットフレンドリーな実験室 が必要になるだろう。別の選択肢は、より高性能な手を作るか、完全にロボット化された専用実験室を作ることだ。
  最初のものが最も興味深く、進むべき道だ。それが可能になれば、「自己修理」車両や惑星基地のように、多くの可能性が開ける。オンボードの「技術者」ロボットさえあればよい。
- こうした実験室自動化製品はすでにあり、この分野のいくつかのスタートアップは結局、人々がお金を払う核心はソフトウェアなのに、ハードウェアを売らなければならないという、皆と同じ逆風に直面している。
  学術研究室は100万ドルのスタートアップ製実験機器を買わない。30の研究グループ向けの共用コアなら何かを買うだろうが、論文出版に直接つながる機器、つまり実績のある機器になるはずだ。
  だから、あなたの言うその製品がすでに存在していても、実験室に入り込めないのだ。
- 化学実験室の多くの物質は有毒で、場合によっては人間に致命的ですらある。こうしたものをロボットが代わりに扱えるなら大きな利点だ。
- 間違いなく可能だ。この分野、つまり AI実験室自動化 で働いている友人がいるが、数年以内に競争が激しくなると予想している。
ヒューマノイドロボットと比べると、このロボットはかなりシンプルなので、コストはずっと低くなりそう。ただ、なぜ服を畳むことに注力しているのかはよく分からない。週に1回より頻繁に洗濯する人は多いのだろうか？
毎日少なくとも1回はする料理ができるなら、はるかに役に立つはずだ。
それより洗濯機に新しいイノベーションが出てきてほしい。現在の技術は水を温めて回し続けるという、ごく基本的なレベルだ。大型の紙プリンターのようにシャツを1枚入れると、ローラーで巻き込み、高圧で最小限の水を吹き付け、加熱したあと、30分後に完璧にアイロンがけされた状態で返してくれる、という方式はなぜできないのかと思う。
- 洗濯物は高度な動作計画システムを示すには、ほぼ完璧なデモだ。布は古典的な動作計画のパラダイムでは、事実上扱うのが不可能だからだ。
  極めて非剛体なので、挙動予測は専門的で高価な動力学シミュレーターの領域だし、望む結果を作るにはどんな動作が必要かを逆に問うこともほぼ不可能だ。予測できるとしても、非常に連続的で、離散化に抵抗する。
  折り紙を推論するときによく使う「折り目の幅は0」といった仮定も使えない。
  衣類は布の中でも極端な例だ。非常に不均一なだけでなく弱くもあり、シャツごとに奇妙な質感と複雑で予測不能な局所特性に覆われた、ぐにゃぐにゃの位相構造物だ。少し扱いを誤るだけで糸がほつれる。フリル、ジッパー、ポケット、ひもまで、きりがない。
  そのうえ洗濯は誰もがすることなので共感しやすく、実験室でセットアップしやすく、人間が性能を一目で直感的に評価できる。
  70年近い研究にもかかわらず、説得力のある性能を示した人がいないため、バックフリップやバスケットボールのシュート、トラックへの積み込みより難しい課題だ。だから、テーブル上のブロック以上のものを扱える新しいアルゴリズムが出ると、ほぼ必ず洗濯物に適用される。
- 洗濯物を畳むことが最終目標ではない。ロボットには器用さ、計画、感覚入力への反応などが求められる非常に難しい作業なので選ばれたのだ。
  つまり、ロボットが洗濯物をこなせるなら、家の中のほぼあらゆる他の作業も教えられる可能性が高い。
- 子どもが1人でもいると、洗濯は始まりと終わりが決まった作業ではなく、連続工程になる。
  料理は、多くの人が深くやりがいのある人間的な作業だと感じるものだ。私は違うが、自分が例外だということは分かっている。一方で、地球上での限られた時間を洗濯に使うことに価値があると考える人を見つけるのは難しいだろう。
- 週に3〜4回洗濯する人も多い。家でまったく料理しない人もいる。世界には80億人がいる。
- Axiomに住む人たちには清潔なジャンプスーツが必要になるからでは？
  真面目に言うと、洗濯物を畳むことは、ロボットにとってかなりの器用さと精密な物体操作が必要な複雑な作業だが、料理と違って比較的リスクが低い。
  ロボットが失敗しても、ロボットや周囲の環境、近くの人間に大きな被害が出る可能性は小さい。だから研究課題としてかなり良く、解決できればイベントのデモでも印象的に見えるはずだ。
洗濯物を畳むのは小さな雑用で、本当の聖杯は24時間料理できるロボットアームだ。
すべてのファストフード店、レストラン、ホテル、病院、軍基地、クルーズ船、そして食事を準備するあらゆる場所にロボットアームが入れば、労働市場は回復できないだろう。
最大の勝者は、自社の農産物で温かい食事を作り、近隣の家にドローン配送する食料品店かもしれない。もちろん、過度に楽観的な考えかもしれない。
- 欲しい料理を毎回正確に受け取るために、近くのロボットシェフへ好きなレシピを送ればいい。
  その時点でも、固定メニューを持つレストランに意味はあるのだろうか？
9日前にHNにも上がっていた。
https://news.ycombinator.com/item?id=42011770
興味深い取り組みだ。
時間に敏感でない作業で、ロボットをリアルタイム処理しようと頑張るのではなく、現在のトランスフォーマーモデルが実ハードウェア上で対応できるレイテンシまで遅くすると何ができるのか、考えたことがなかった。
- von NeumannのTheory of self-reproducing automata (1966) p.72 “Role of High Complication”に、こういう記述がある。
  「オートマトンは、それが反応する環境から切り離すことはできない」
  「現在の地球表面における人間の生存特性はよく定義されているが、ほとんどの人間のタイプについては、状況をもう少し特殊化する必要がある。人間が海底や摂氏1000度でどのように生存するかを論じるのは無意味だ。同様に、計算機械がどれほど速いか遅いかを問うことも、どのタイプの問題が与えられるのかを明示しなければ無意味である」
40歳未満で服を畳んだりアイロンをかけたりする人をほとんど知らないし、30歳未満でアイロン台とアイロンを持っている人を知っているかどうかさえ分からない。いたとしても壊れているか、壊れていないならなくしている気がする。
「洗濯をする」ことは、実際に洗濯すること以上に早く時代遅れになっていると思う。人々が傷んだ服の修繕をロボットに任せたのではなく、古い服を捨ててファストファッションに替え、裁縫をやめたのと似ている。
この製品が高所得層を狙うなら、価格が10万ドルから1千ドルまで下がっても、こうした理由で勝ち目はなさそうだ。
- ファストファッションの服は、ますますアイロンがけできないものが増えている。同時に、良質な服を買うこともますます難しくなっている。
  ファストファッションの影響で、非常に高価なデザイナーブランドでさえ、裏地のないコートや薄いセーターのようなものを出している。
  良質な衣料のサプライチェーンが大きく縮小したことも理由の一つだ。デザイナーが良い生地を手に入れようとしても、以前より高く払わなければならない。
HNのほうで知っている人がいるかもしれないが、なぜこういうロボットはあんなにゆっくり動くのだろう？安全のためなのか、それとも速度が上がると難易度が大きく上がるのか？
- 速度は彼らの第一の関心ではないようだ。
- 視覚言語モデルでロボットの動作をトークン単位で生成している。VLM推論がボトルネックになっているのだ。

Physical Intelligenceの初の汎用ロボットポリシー π0、洗濯物たたみまで実演

π0が目指す汎用ロボットポリシー

狭い自動化を超える理由

学習データとロボット構成

学習データ構成

含まれる作業タイプ

インターネット規模の意味理解と連続行動出力

後処理学習で扱った器用な作業

洗濯物たたみ

テーブル片付け

箱の組み立て

OpenVLA・Octoとの評価比較

5つの評価タスク結果

残された課題と協業の方向性

長期推論と計画

関連記事

1件のコメント

Hacker News の意見