7 ポイント 投稿者 GN⁺ 2025-05-10 | 1件のコメント | WhatsAppで共有
  • LegoGPTは、テキスト入力だけで安定していて実際に組み立て可能な LEGO 構造物を生成する革新的なプロジェクト
  • StableText2Legoデータセットを構築し、47,000件以上の物理的に安定した LEGO 構造と詳細な説明を提供
  • アルゴリズムは高速な妥当性検証と物理ベースのロールバックを適用し、非現実的な構造物を自動的に除去
  • 生成された LEGO デザインは人間とロボットの両方が実際に組み立て可能で、多様な色彩や質感表現にも対応
  • このシステムは創造的なデザインのプロトタイピング、教育、ロボティクス応用など、さまざまな分野に新たな可能性を開く

プロジェクト紹介

  • LegoGPTは、ユーザーが入力したテキストプロンプトをもとに、完全自動で実際に組み立て可能かつ物理的に安定した LEGO 構造物を生成する初のアプローチ
  • このプロジェクトは、大規模な LEGO 構造データセットと詳細な説明を含めて構築されており、実際の組み立て工程でも安定性、多様性、美観の完成度を備えた結果を生成
  • 生成された LEGO 構造物は、実際に人が手で組み立てたり、ロボットアームで自動組み立てしたりできることが実験的に検証されている

StableText2Lego データセット

  • StableText2Lego データセットは、ShapeNetCore の 3D メッシュから形状をボクセル化した後、さまざまなブリック配置手法を適用し、物理的安定性検証を通過した構造のみを採用
  • データ生成過程では、各構造物について24の角度からビューをレンダリングし、それをもとに GPT-4o が精密な説明文を自動生成
  • このように構築されたデータセットには、多様な形状、構造、テクスチャを持つ47,000件以上の LEGO 構造28,000件以上の固有 3D オブジェクトが含まれる

LegoGPT パイプライン

  • LEGO 構造物は下から上へ、ラスタースキャン方式でテキストトークン列としてトークナイズされ入力される
  • 各ブリック列と自然言語説明をペアにして、LLaMA-3.2-Instruct-1Bベースのモデルをファインチューニングし、説明-ブリック列マッピングを学習
  • 推論段階では、LegoGPT はテキストプロンプトに対してブリックを1つずつ予測・追加する方式で LEGO 構造を段階的に生成
  • 各ブリック追加時には、形式、ブリックライブラリ内での存在、衝突の有無について妥当性検証を行い、構造物全体の生成後に物理的安定性を再検証
  • 最終構造が不安定な場合は、不安定なブリックとその後に追加されたブリックをすべて削除し、安定した状態までロールバックして再生成

段階的な LEGO 構造生成の例

  • "細長い船体を持つスリムな船"
  • "水平棚のある本棚"
  • "背もたれがなく肘掛けのあるベンチ"
  • それぞれの例は、テキストプロンプトから視覚的特徴を明確に反映した LEGO 構造として段階的に生成される

ロボットを活用した自動組み立て

  • 生成された LEGO モデルは、ロボットアームを用いた実際の組み立てに適用され、8倍速映像でデモされている
  • "細長い船体を持つスリムな船"、"非対称 6 弦ギター" などで、実際のロボット組み立てへの適用可能性を示している

生成されたテクスチャおよびカラー LEGO モデル

  • 自然言語プロンプトに "苔むしたベンチ"、"ネオングラデーションのサイバーパンク素材"、"ヴィクトリア調書斎の棚" などを指定することで、質感、素材、特定の美的効果まで表現可能な LEGO デザインを提供
  • "Sunburst Les Paul with amber finish" のような多彩な色彩や金属的効果も、テキストだけで反映した LEGO 設計が可能

引用と研究支援

  • 論文情報、著者、およびこの研究を支援した機関(例: Packard Foundation、Amazon Faculty Award など)が明記されている
  • 主要研究者のMicrosoft Research PhD Fellowshipなど、さまざまな学術的・産業的支援のもとで進められたプロジェクト

プロジェクト参考およびテンプレート

  • このサイトのテンプレートは、Custom DiffusionおよびDreamFusionプロジェクトのレイアウトを参考に活用されている

1件のコメント

 
GN⁺ 2025-05-10
Hacker Newsのコメント
  • 私たちは、結果物の安定性を高めるために効率的な妥当性検証と物理ベースのロールバックを活用し、物理法則や組み立ての制約条件に照らして不可能なトークン予測を刈り込んでいる。AIを使ううえで最も興味深い点のひとつは、手作業でプログラムしたドメイン特化の制約の中で可能性を生成し、最適化するやり方だ。たとえば交通信号AIには、衝突を防ぐためのハード制約が必須になる。そうした制約の内側であれば、AIは自由に最適化のアイデアを試せる。結局のところ鍵になるのは、問題空間と制約条件をどう設計するかだ。この場合は、レゴブロックとその組み合わせ、そして安定性である
    • これは何十年も続いてきたメタヒューリスティクスの典型例だ。さまざまなアルゴリズムがあり、軽めの入門書もあるので参考になる https://cs.gmu.edu/~sean/book/metaheuristics/
    • 最近のLLMでも、すでに単純なバージョンが力を発揮している。JSON Schemaモードを使って不正状態を最初から防ぎ、モデルを制限された空間に放てば、少なくとも有効な結果だけを出させることは保証できる。ある種の型安全性の概念だ。妥当性検証と修正ロジックは、さまざまな検証シナリオにも適用できる。こうした活用がもっと増えてほしい
    • この種の問題にはMILPやCLPベースのモデルを使うことになりそうだ。制約が探索空間を定義し、ソルバーのアルゴリズムがその空間を探索する
    • 強化学習にも興味を持てるかもしれない。システムに負の報酬を与えれば、安全ルールに従い始める可能性がある。ただし実運用では安全装置を必ず維持すべきだ https://en.wikipedia.org/wiki/Reinforcement_learning
    • 制約をどう適用しているのかはまだ読んでいない。LLMにJSONなどの構造化出力を強制する場合にも、似た方法が使われる。llama.cppではカスタム文法マッチングもサポートしている
    • この意見には全面的に同意する。物理、合法性、ツールの制約で生成結果を制限すると、モデルは単なる単語予測器というより探索・検証エンジンに近づく。これはプログラム合成により近い。本当の価値は、問題空間を緻密に定義して、モデルが必ず有用な結果だけを出せるよう「箱」の中に閉じ込めることにある
    • 遊びで試してみるとよい例として、LLMに「APPLEと言って」と指示しつつ、Apple関連トークンのロジットを-無限大に設定してその単語を使えないようにすると、出力は「Banana. 冗談です。Banana. あ、おいしいからつい間違えた。もう一度やると: Orange. あ、今度は grape。いや、あのシャキシャキした野菜 carrot」みたいになる
    • 私も、AIが本当に輝くのはこの領域だと思う。人間がルール(物理法則、交通安全など)を定め、AIが広大な探索空間から最適解を見つけ出す
    • エラーフィードバックこそが本当の可能性を開く鍵だと思う。たとえばテキスト-to-SQLボットにSQLプロバイダのエラーフィードバックを与えると、はるかに良いクエリを生成できる
    • 組み合わせ化学にも似た概念があるので、AI Chemistryと呼んでもよさそうだ https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • このプロジェクトはLEGOの弁護士から警告状を受ける可能性が高い。安全策を取るなら、LEGOという単語は使わず、BricksやKlemmbausteine(ドイツ語)と呼ぶほうがいい。多くの人がLEGO法務部門と争っており、本当に大変だった
    • 実際にLEGOブロックを使っているのだから、誤認の余地はない。ただし、LEGOとは無関係であることを明確に示していない点はやや曖昧だ。一方で、彼らが収益化を目指しているようにも見えないので、LEGOが損害を受けるという主張も弱く、リスクは低そうだ
    • YouTuberや小規模な趣味サイトでも、単語の使われ方の文脈だけで削除通知を受けることがよくある
    • 一方でAmazonは、LEGOとCalvin & Hobbesの両方をコピーしたBoy and Tiger Adventure Blocks Setを平然と販売している https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • これは学術研究なので、公正使用の範囲に入ると思う
    • 私も同感だ。近いうちに問題になるだろう
    • なぜ人々はNintendoのように振る舞い、Segaのようにコミュニティを受け入れないのか不思議だ
  • この結果はあまり印象的ではない。使っているブロックの種類が少なすぎるし、完成物も意図した見た目から遠く見える。手作業のアルゴリズムのほうが良い結果を出せそうな感じがする
    • この研究のすごい点は、写真のリアリズムではなく、言語理解と物理的に組み立て可能であることの組み合わせにある
    • もっともらしく見えるのは偽の質感のおかげにすぎない。ただ色付きブロックだけを使っていたら、ただの塊にしか見えないだろう
    • 1Bの微調整済みモデルだと考えれば、かなり興味深い
    • 本当に必要なのは、手元のブロックの山の写真を渡すと、自分が持っているブロックだけで組み立て説明書を作ってくれるAIだ。技術的には今すぐ可能だろうが、専用モデルを別途学習させる必要がある
  • iPhoneではGIFの位置までスクロールすると自動的にGIFが再生され、サイトのナビゲーションが非常にやりづらくなる
    • いったいいつになったら、自動再生は絶対にしてはいけないと皆が学ぶのだろう
    • 逆に私はFirefoxデスクトップでGIFが表示されていることに気づかず、その画像が何を意味しているのか分からなかった
    • videoタグにplaysinline属性を付ければ、この問題を修正できる https://developer.mozilla.org/en-US/docs/…
  • 私はLEGOの組み立てを自動化したくない。自分で作る過程が楽しいからだ。むしろ必要なのは、組み立て後の自動化だ。片づけて、色や形ごとに分類し、きれいに保管してくれる機能である。科学者たちには、まず現実世界で本当に必要とされる問題から解き始めてほしい。そこには本当の価値とお金がある
    • 2トンのLegoを分類した事例と、AIでレゴを自動分類する最初のマシンに関する記事およびリンクがある https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • 現実の問題を解くのが難しいのは、論文出版がすべてという学界の文化のせいだ
    • 真のイノベーションとは、楽しい部分を自動化することではなく、退屈な部分を消し去ることだ
    • 私もその話をしに来た。レゴの本当の問題は掃除と整理だ
  • 本当にすばらしいプロジェクトだ。GIFで組み立て過程を見せるのがとても中毒性がある。データセット情報を探していた人向けに共有する https://huggingface.co/datasets/AvaLovelace/… https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • 「a basic sofa」を見ると、アニメーションの順番どおりに作るとブロックが空中に浮いているようになる。これは、モデルがデザインを生成する方式の限界を示す手がかりだ。ロボットを使って生成された設計を自動的に組み立てるなら、このデザインでは大きな問題になると思う
    • 私も同じ指摘をしに来た。完成形は悪くないが、アニメーション上の組み立て順序には問題が多い。まず2層の床を作って、上の層が下の層のブロックを固定するようにしなければならない。その後で初めて脚を取り付けられる
  • 5万ドルのロボットが数ドル分のレゴを組み立てている様子を見るのは滑稽だ。まるでロボットのための老人ホームの風景を見ているようだ
    • 10年もすれば、人間よりはるかに速いロボット組立工が現れるかもしれない
    • こういう理由で、アジアではいまだに手作業で組み立てるのが一般的なのだろう
    • レゴは高いと言われるが、レゴを組み立てるロボットを買ってみれば、それがどれほど高くつくかわかる
  • 単に3Dモデルをボクセル化してブロックに変換している以上のものには見えない。2x2や2x4だけでなく、さまざまなブロックを創造的に活用してこそ良い結果になる。美しいMOC(オリジナル作品)を自動生成する最適なアルゴリズムが気になる。5万ドルのkaggleコンテストを開こうかと思っているが、意見を聞きたい