5 ポイント 投稿者 xguru 2022-07-29 | 1件のコメント | WhatsAppで共有
  • 2D画像で構成されたLegoのビジュアル組み立てマニュアルを、機械が解釈可能な形に翻訳
  • 連続した予測(prediction)タスクとして捉え、各段階でモデルがマニュアルを読み、現在の形状に追加されるコンポーネントを見つけた後、3次元形状を推論
  • マニュアルの2D画像と実際の3Dオブジェクト間の2D-3D対応問題や、未見(Unseen)の3Dオブジェクトの形状推論タスクなどが必要
  • これを解決するための学習ベースのフレームワークであるMEPNet(Manual-to-Executable-Plan Network)を提示
  • 中核となるアイデアは、2Dキーポイント検出モジュールと高精度予測のための2D-3D射影アルゴリズム、そして未見コンポーネントに対する強力な一般化(Generalization)