4 ポイント 投稿者 xguru 2024-03-14 | 2件のコメント | WhatsAppで共有
  • Figure 01ロボットは、いまや人と完全に対話可能
  • OpenAIのモデルは高度な視覚・言語知能を提供
  • Figureのニューラルネットワークは、高速で低レベルかつ俊敏なロボット動作を可能にする
  • 目に見えているものを説明し、食べ物を欲しいと頼まれるとリンゴをつかんで手渡しし、状況を判断してカップとテーブルを片付けるといった動作を実行

2件のコメント

 
erados 2024-03-14

出力方式がまた1つ増えましたね

 
xguru 2024-03-14

Hacker Newsの意見

  • ロボットの敏捷性には感心したが、GPT-4を体験した人なら、ロボットの音声および推論能力自体はそれほど驚きではないかもしれない。関数呼び出し機能は印象的だが、相互作用している「世界」は非常に単純だ。ロボットが現実世界と相互作用するのを見るのは興味深い。現在のAIの進歩を妨げているのは、推論コストと速度だ。毎秒数千トークンを安価に処理できる方法が見つかれば、多くの難題が解決され、本当に驚くべきアプリケーションが見られるようになるだろう。
  • 音声で事前学習済みの動作の1つを選ぶのはクールだが、革新的というほどではない。GPT-4Vを使って場面を描写するのも比較的簡単だ。最も印象的なのは、ゴミを素早く拾い、手から手へ物を柔軟に受け渡すスピードだ。こうした動作ポリシーがどれほど汎用的なのかは不明だ。人が完全にじっと立っている様子を見ると、すべてが正確に設定されていなければ失敗しそうに思える。もっと変化のあるデモを見てみたい。とはいえ、このデモは素晴らしいと思うし、さらに多くを見たい。
  • Groqの低遅延推論は、実際の有用性を示している。応答に多少の遅延があって印象が薄れるかもしれないが、それでもなお非常に印象的だ。
  • ロボットがゴミとリンゴの載った汚れた皿を水切りラックに入れるのは疑問だ。皿は先に洗うべきだ。
  • テキストをサーボモーターの動きに変換する能力は驚くべきもので、GPT-4 VisionとWhisperが大いに使われているように見える。「推論」という用語の使い方も新しい。AIラッパー企業と言えるだろう。もちろん媒体はアプリとは異なる。たとえ今日AI開発が止まったとしても、すでに多くの驚くべきAIアプリケーションがある。
  • 人型のフォルムと音声は、純粋なチャット版とは異なる感覚を与える。目とアイコンタクトを加えれば、さらに深い印象を与えるだろう。一般の人々にこれを実演する場面を想像する。
  • 音声をサーボモーターの動きに変換するのは印象的だ。敏捷性を要する作業をこなすスピードは驚異的で、しかも動画を加速しなくても「自然」に見える、初めての物体操作ロボットのデモだ。
  • これがどれほど非現実的で無用なものかを知らない5歳児になって、未来について一度だけ前向きに考えてみたい。でも人類は、基本的な住居ニーズの土台なしに「想像上の数字の上昇」を回せないことを理解しておらず、この技術を有用で、安価で、信頼でき、善いものにする方法もない。
  • このデモで最も印象的なのは、ロボットが「見て」、人間のような付属肢で物体を持ち上げることだ。何か見落としているのかもしれないが、これは非常に難しいことだと思っていた。逆運動学は難しいと理解しているが、ニューラルネットワークで解決したのだろうか?
  • YouTubeの同じ動画へのリンク: Figure Status Update - OpenAI Speech-to-Speech Reasoning