[論文] レゴのマニュアルを機械実行可能な計画へ翻訳する

xguru · 2022-07-29T09:29:44+09:00

2D画像で構成されたLegoのビジュアル組み立てマニュアルを、機械が解釈可能な形に翻訳連続した予測（prediction）タスクとして捉え、各段階でモデルがマニュアルを読み、現在の形状に追加されるコンポーネントを見つけた後、3次元形状を推論マニュアルの2D画像と実際の3Dオブジェクト間の2D-3D対応問題や、未見（Unseen）の3Dオブジェクトの形状推論タスクなどが必要これを解決するための学習ベースのフレームワークであるMEPNet（Manual-to-Executable-Plan Network）を提示中核となるアイデアは、2Dキーポイント検出モジュールと高精度予測のための2D-3D射影アルゴリズム、そして未見コンポーネントに対する強力な一般化（Generalization）

(cs.stanford.edu)

5 ポイント投稿者 xguru 2022-07-29 | 1件のコメント | WhatsAppで共有

2D画像で構成されたLegoのビジュアル組み立てマニュアルを、機械が解釈可能な形に翻訳
連続した予測（prediction）タスクとして捉え、各段階でモデルがマニュアルを読み、現在の形状に追加されるコンポーネントを見つけた後、3次元形状を推論
マニュアルの2D画像と実際の3Dオブジェクト間の2D-3D対応問題や、未見（Unseen）の3Dオブジェクトの形状推論タスクなどが必要
これを解決するための学習ベースのフレームワークであるMEPNet（Manual-to-Executable-Plan Network）を提示
中核となるアイデアは、2Dキーポイント検出モジュールと高精度予測のための2D-3D射影アルゴリズム、そして未見コンポーネントに対する強力な一般化（Generalization）

1件のコメント

budlebee 2022-07-29

brickit という、レゴの山の写真を撮ると人工知能が部品を分類し、作れるレゴを提案してくれるスタートアップを思い出します。

[論文] レゴのマニュアルを機械実行可能な計画へ翻訳する

関連記事

1件のコメント