LL3M: 大規模言語モデルベースの3Dモデラー

(threedle.github.io)

11 ポイント投稿者 GN⁺ 2025-08-18 | 1件のコメント | WhatsAppで共有

LL3Mは 複数の大規模言語モデルを用いてPythonコードを自動生成し、Blenderで3Dアセットを生成・編集する
ユーザーのテキスト指示に応じて、創造的かつ精密な形状を直接作り、複雑な幾何学的操作をコードで実装する
既存の3Dモデル生成ツールとは異なり、制約のないアセット生成と細かなインタラクションを提供する
生成されたBlenderコードは明快でパラメータの透明性が高く、ユーザーやエージェントが容易に修正したり反復的に改善したりできる
一貫したスタイル化、マテリアル編集、階層構造の実装など、幅広い3Dアセット処理の可能性を示す

LL3Mの概要

LL3Mは、複数の大規模言語モデル（LLM）エージェントがPythonコードを記述し、Blenderで3Dアセットを生成・編集する革新的なフレームワーク
ユーザーがテキストで指示を出すと、LL3Mは創造的な形状生成と精密な幾何操作を自動化し、高水準のコードを3D表現の手段として用いることで、反復的な改善と共同作業を可能にする
コードは明確に説明され、さまざまなパラメータや構造が透過的に示されるため、追加編集やユーザーの継続的なフィードバックも容易

パイプライン概要

パイプラインは3つの主要段階（初期生成、自動改善、ユーザーフィードバックベースの改善）で構成される
- 初期生成段階では基本的な形状を作る一方で、LL3Mが論理的に不適切な構造や単純な幾何要素を自動検出して改善する
- 第2段階では、より洗練された自動修正を加え、複雑な形状や関係性も反映する
- 最終段階では、ユーザーの追加編集リクエストを受け入れ、インタラクティブで反復的な3Dアセット生成を実現する
各段階はエージェントの役割分担に基づき、反復的かつ段階的な向上方式を実装する

ギャラリーと性能

多様な形状生成: 風車、ピアノ、ドラムセットなど、複雑な配置と細かなディテールをコードで実装
一貫したスタイル適用: 同じ "steampunk" 指示語を複数のメッシュ（帽子）に適用し、共通スタイルを維持しながら変化のある結果を生成
マテリアル編集対応: たとえば刃の部分だけを別個のシェーダーノードとして定義し、材質を変更できる

コードの解釈可能性

生成されたコードには構造的ロジック、明確な変数名、コメントが含まれており、理解と修正が容易
例: キーボードパターンのロジックやキー幅の変数などを直接変更可能
Blenderノードとパラメータがそのまま示されるため、色やパターンといった視覚属性を直感的に調整できる

コードの再利用性と汎用性

異なる形状同士でもループ、モディファイア、ノード設定といった上位コードパターンが再利用される
これにより、さまざまなプロンプトに対してモジュール化され修正可能なコード生成が可能

シーンと階層構造

複数のオブジェクトを生成し、インスタンシング・ペアレンティングによって空間的関係を自動配置する
例: ランプのような複合オブジェクトを生成する際、親子関係の構造を反映し、変換が階層的に伝播するようにする
各パーツには意味のあるセマンティックネームが付与され、Blenderのscene graphで効率的に管理できる

1件のコメント

GN⁺ 2025-08-18

Hacker Newsのコメント

友人たちが求める画像を良い3Dモデルに変換する作業で、meshy.aiを使って思いがけず成功した経験がある。自分のワークフローは、1) GPT-5やMidjourneyのような画像モデルで元画像を滑らかにレンダリングされたメッシュ風に変換し、不要なディテールや透明・立体的な効果を取り除く。2) こうして整理した画像をmeshy.aiのimage to 3Dモードに入れ、気に入らなければ再び1段階目に戻って画像スタイルを変えて選ぶ。3) 最終的にBlenderへ持っていき、好みどおりにメッシュを編集し（特定部位の調整、非対称の追加など）、さらにモデリング作業を行う。メッシュ構造はかなり安定していて、おそらくmarching cubesやdual contouringのような方式がNeRF系ジェネレーターの上で使われている感じだ。自分は機械CADは本当に速いがBlenderの腕前は普通なので、AIがモデルの大枠を作ってくれて、自分は手で修正と補完だけすればよいのは非常に効率的だ。たとえば友人から実在人物の彫像を改変してほしいと頼まれた場合、以前なら自分が多くの時間を使わなければならなかったが、AI+Blenderの組み合わせなら5分でモデルを作り、Blenderで1時間ほど整えるだけで十分で、生産性の大幅な向上を実感している
- 1段階目で画像をマットなレンダーメッシュ風に変えると言っていたが、それがどのような画像を意味するのか気になる。透明な表面を不透明にするのは理解できるが、全体画像の例や、その過程で使うプロンプトを共有してもらえないだろうか
- GPT-5はテキスト専用モデルだ。ChatGPTは今でも画像処理に4oを使っている
Blenderを7年以上使っていて、Blender Stack Exchangeで1000件以上回答し、48,000点ほど獲得している立場だ。このAIベースのBlenderツールはPython、特にBlender Python APIの基礎を学ぶ用途としては悪くないのかもしれないが、実際にはあまり必要性を感じない。例として示されている作業はBlenderでは本当に簡単にできるもので、こうしたツールを使うと、結局は入力プロンプトに合わせた無難な結果しか出てこない。基礎モデリングはチュートリアルを1日やれば学べて自分で作れる領域であり、そうして作ったモデルには自分ならではの創造性が反映される点が大きい。1週間もすればAIプロンプトより速く自分で作れるようになり、腕もどんどん上がっていく。AIから学べることは多くない。meshy.aiは写真やレンダリングをメッシュに変換し、適切にテクスチャを貼るところまでは悪くないが、その先はsculptが苦手な人向けだと思う。ちなみにmeshy.aiのテスト結果はこちらにまとめてある
- Blenderのチュートリアルを数日追ってみても、例のレベルにはたどり着けない立場だ。自分の能力を投影しすぎていると思う。3Dモデルアーティストではなく、ただ3Dモデルが必要だったユーザーとして、こういう技術は本当に役立つ
- 自分もHoudiniを趣味で触っているユーザーとして、パラメータ化された単一モデルなら数日で作れるが、短い映像やシーン全体を1つ作るには数百〜数千のモデルやテクスチャ、リギング、アニメーション、さらにはシミュレーションまで膨大な量が必要になる。2分のアニメーション1本でさえ、ソロアーティストにはほぼ不可能だ。たいていはアセットパックを買って組み合わせるが、そうすると自分のアートがそのスタイルに縛られる。こうしたAIツールは、その工程のうち1つか2つでも大幅に軽減してくれるので、1人で作業できる範囲を広げてくれる
- 自分はAIカスタマーサポートツールの開発者兼デザイナーとして、LLMには対話主導性や創造性が足りないことを会社に説明し続けなければならないと感じている。単一機能よりも、道具にAIを統合して反復作業を高速化する方向にもっと注力してほしい。たとえばFusion360のAIによる拘束条件自動化のような機能は本当に生産性を高める。Blender向けでも、こういう方向のツール（例: マテリアルの自動接続）のほうがずっと興味深い
- Blenderを何週間も学びたくないユーザーなら、数時間の投資で十分実用的な結果が得られるなら、それが最も効率的だ
- このツールは、今日が最も出来の悪い時点だということを覚えておく必要がある。今後はどんどん良くなっていくはずで、LLMの応用分野はまだ始まったばかりだ
これは以前から自分が友人たちに強調してきた方向性だ。今後はAPI中心の創作ソフトウェアが勝つだろう。After EffectsはJS APIがそこそこ整っているし、Da Vinci ResolveはPythonやLuaなど多様なスクリプトで自動化できる。スクリプティング過程でのトランザクションロールバックもよくサポートされている。大半のデスクトップアプリのスクリプト環境に対する汎用的なMCPの必要性が高まっている。マルチモーダル入力と連動するスクリーンキャプチャも必要だ
最近、Aseprite（ピクセルエディタ）で手続き生成キャラクターを作る自動化LuaスクリプトをClaudeと一緒に書いてみた。シード値で結果を再現でき、人の形らしきものは出たが、品質基準としてはまだ遠い。それでも非常に手軽で楽しく使えた。
- https://www.aseprite.org
- この話題が面白いなら、pixellab.aiも一度見てみる価値がある。彼らは、プロンプトだけでもかなり良いスプライト画像を生成するAsepriteプラグインを作っている
- 自分も良いピクセルアートAIを探し続けている。使ったことのあるツールの大半は、悪くはないが印象的ではなかった。良い体験があれば、おすすめのリンクを教えてほしい
3Dモデルの品質を見下す前に、昔のDancing Babyや初期のPixarアニメーションを思い出してみれば、これは驚くべき進歩だ。いずれはLLMにプロンプトを入れるだけでほぼ完成した3Dモデルが出てきて、自分はテクスチャやベイク、エクスポートだけすればよい時代が来ることを心待ちにしている
- 自分も、近いうちに人類が何兆時間もかけて積み上げた実験データが統計モデルとして集約され、それを実際に可能にした当事者には1円も支払われないまま企業が収益化する時代が来るのを楽しみにしているよ
- LLMは言語モデルであって、メッシュデータは言語ではない。理論上、Pythonで単純なメッシュ程度は生成できるだろうが、本当に美しい3Dアートをこんな方法で作る人はいない。ベクターアートでも直接SVGコードを書くわけではないように、LLMそのものだけで視覚芸術を作るのは難しい。LLMは他のモデルのインターフェースとして使うことはできても、それ自体がすべてを作り出せるわけではない
最近のLLMの空間知能が本当にかなり改善しているのは心強い。1年前までは上下・左右・前後のような位置概念を含むストーリーを書かせるだけでも完全に混乱し、きちんと区別できなかった。GPTに最もスクリプトしやすいCADソフトウェアは何かと尋ねたところ、Freecadと答えた。Blenderは精密測定ができないなど、CADというよりモデラーに分類されるツールだ。Freecad APIは構造があまり整理されておらず、GPTが関連関数を覚えたり、うまく見つけたりできない。Blenderはユーザーが多く共有コードも多いので、はるかによく機能する
- OpenSCADはどうだろう
- CADで測定作業を自動化するスクリプトも書けるのだろうか
Blenderを何度も試しては挫折した経験がある。今はOpenshotでアニメーションタイトルを作るときにだけBlenderを使っている。高度なツールを使いやすくする方法はいつでも歓迎だ
あらゆるものに対して、トークンベースの大規模モデルが登場すると考えている。世界中のあらゆるデータはトークン化できるからだ。言語を経由する方法が必須というわけではなく、AIは徐々に幾何学的データも流暢に扱えるようになるだろう
- AI生成データへの拒否感は、たいてい言語限定性に由来する。そのせいで本当に創造的な入力が反映されにくい
- かつてword2vecが大きな革新をもたらしたように、3Dモデルも根本的にはベクトル空間で表現できていた
ここで重要なのはエージェントワークフローだ。LLMの3D世界の理解度が継続的に向上すれば、さまざまな状況で役立つだろう。専門家向けのバグチェックや推薦、ポップアップヘルプなど、人間の介入なしにバックグラウンドで動きながら問題を見つける用途にも有用だ。これをプログラム的に制御する能力も、ますます価値を増していくだろう
自分はモデラーではないが、3Dゲームを1人で開発する中で何度か試したことがある。自分にとってモデリングは、どうしてもやらなければならない苦痛だった。こういうツールがあれば、インディープロジェクトで超ローポリのベースモデルを素早く作り、それを土台に自分が手作業で細かく仕上げる形で使いたい。自分にとっては高品質より時間の節約のほうが価値がある

LL3M: 大規模言語モデルベースの3Dモデラー

LL3Mの概要

パイプライン概要

ギャラリーと性能

コードの解釈可能性

コードの再利用性と汎用性

シーンと階層構造

関連記事

1件のコメント

Hacker Newsのコメント