[論文] レゴのマニュアルを機械実行可能な計画へ翻訳する
(cs.stanford.edu)- 2D画像で構成されたLegoのビジュアル組み立てマニュアルを、機械が解釈可能な形に翻訳
- 連続した予測(prediction)タスクとして捉え、各段階でモデルがマニュアルを読み、現在の形状に追加されるコンポーネントを見つけた後、3次元形状を推論
- マニュアルの2D画像と実際の3Dオブジェクト間の2D-3D対応問題や、未見(Unseen)の3Dオブジェクトの形状推論タスクなどが必要
- これを解決するための学習ベースのフレームワークであるMEPNet(Manual-to-Executable-Plan Network)を提示
- 中核となるアイデアは、2Dキーポイント検出モジュールと高精度予測のための2D-3D射影アルゴリズム、そして未見コンポーネントに対する強力な一般化(Generalization)
1件のコメント
brickit という、レゴの山の写真を撮ると人工知能が部品を分類し、作れるレゴを提案してくれるスタートアップを思い出します。