TRELLIS - 3Dメッシュ生成モデル

(trellis3d.github.io)

1 ポイント投稿者 GN⁺ 2024-12-10 | 1件のコメント | WhatsAppで共有

TRELLISは、テキストや画像を条件として3Dアセットを作成する生成モデルで、統合潜在表現SLATとRectified Flow Transformersを組み合わせることで、品質と出力の柔軟性を高めている
SLATは、疎な3Dグリッドとマルチビューの視覚特徴をあわせて保持し、幾何構造とテクスチャを表現するもので、Radiance Fields、3D Gaussians、meshesにデコードできる
最大20億パラメータのモデルを50万件の3Dアセットデータセットで学習し、同規模の最新手法を含む従来手法より高品質な結果を出すとしている
テキスト-3Dおよび画像-3D生成だけでなく、既存の3Dアセットの変形生成やローカル領域編集にも対応し、腕の除去、武器の追加、脚の置き換えといった操作を示している
公開資料は学術・研究目的に限定されており、インターネット由来データセットの潜在的バイアスや、写実的な実世界オブジェクト生成の限界が残っている

TRELLISの目標と範囲

TRELLISは、スケーラブルで多様な3D生成を目指したネイティブ3D生成モデルである
プロジェクトページはTRELLISの唯一の公式ウェブページであり、この研究はCVPR 2025 Highlightとして示されている
テキストまたは画像条件から高品質な3Dアセットを作成し、多様な出力形式と編集機能を提供することが中核目標である
コード、モデル、データは公開予定である

Structured LATent（SLAT）表現

SLATは、高品質かつ多目的な3D生成のための統合3D潜在表現である
オブジェクト表面と交差するアクティブボクセル（active voxel）にローカル潜在ベクトルを定義する
ローカル潜在ベクトルは、3Dアセットを複数視点から高密度にレンダリングした後、画像特徴を融合・処理してエンコードされる
これらの特徴は事前学習済みのビジョンエンコーダから得られ、アクティブボクセルが提供する粗い構造を補完して、詳細な幾何形状と視覚的特徴を捉える
異なるデコーダを適用することで、SLATを複数の3D表現へ変換できる
- Radiance Fields
- 3D Gaussians
- meshes

生成モデル構造と学習

TRELLISは、SLAT上に構築された大規模な3D生成モデルファミリーであり、テキストプロンプトや画像を条件として用いる
生成パイプラインは2段階に分かれる
- まずSLATの疎構造を生成する
- 次に、空でないセルの潜在ベクトルを生成する
バックボーンモデルはRectified Flow Transformersであり、SLATの疎性を処理できるよう調整されている
学習規模は最大20億パラメータで、50万件の多様な3Dオブジェクトからなる大規模データセットを使用する
出力されるのは、詳細な幾何形状と鮮やかなテクスチャを備えた3Dアセットであり、従来手法を大きく上回るとしている

生成・編集例と出力形式

テキスト-3Dの例では、GPT-4が作成したテキストプロンプトを使用している
- ヴィンテージの銅製ダイヤル式電話機
- 赤い屋根とフェンスのある2階建てのレンガ造りの家
- 石の台座の上にある輝く球体
- 金色と銀色のデザインを持つ球形ロボット
画像-3Dの例では、DALL-E 3が作成した画像プロンプトを使用している
ページ上の外観と形状は、それぞれ3D Gaussiansとmeshesからレンダリングされる
GLBファイルは、3D Gaussiansの外観をmeshにベイクして抽出される
与えられた3Dアセットに対して、テキストプロンプトと整合する変形を生成できる
- 金属質感とオレンジ・白のペイント仕上げ
- 緑と紫のニット生地のような質感
- 革のストラップと青いアクセントを備えた中世武器風の金属質感
- 透明なガラスのようなハイテク構造
ローカル操作では、特定領域をテキストまたは画像プロンプトに応じて編集する
- ヒューマノイド戦闘メカから腕を除去
- 巨大なビーム兵器を追加
- 脚をクローラー式シャーシに置き換え
生成された3Dアセットを合成して、複雑で生き生きとした3Dアートデザインを作ることができる

研究目的と制限事項

TRELLISは純粋な研究プロジェクトである
使用データセットは公開データセットであり、個人識別情報や有害コンテンツがないよう検討されている
データセットはインターネットから収集されているため、潜在的バイアスが残る可能性がある
現在のモデルは、芸術的スタイルの3Dアセット生成に強みがある
写実的な実世界オブジェクトを生成する能力は限定的である
ページ上の資料は、テキスト-3Dおよび画像-3D生成技術の探究を目的とした学術・研究用途にのみ提供される
商用利用や実運用は意図していない
関連論文は arXiv preprint Structured 3D Latents for Scalable and Versatile 3D Generation である

1件のコメント

GN⁺ 2024-12-10

Hacker News の意見

うわ、本当にすごいけど、AI生成コンテンツを見ていて気分が悪くなったのは初めてかもしれない
あまりによくできていて、魂のない超高品質な量産型アセットに見えて、悲しさがこみ上げてくる
成果そのものをけなしたいわけではなく、むしろ手作りアセットの終わりを告げているように感じる
アーティストがかわいそうというより、人の手で作られたという属性そのものを求めている自分が切ない
プロシージャル生成のゲームがあまり好きではない理由も同じ。誰かの頭の中から生まれた世界を歩きたいのであって、特に理由もなく存在するプロシージャル生成の世界が欲しいなら、外に出て歩けばいい
コンテンツや漁るための物の山ではなく、同時代の人々が自分のビジョン・アイデア・価値観・洞察・個性を込めて、目的を持って作った芸術作品が欲しい。必ずしもこんなに見栄えがよい必要はなく、目的を持って作られていればいい
- こう考えることもできる。これからはAAAゲームが、単に「グラフィックがすごい」だけでは差別化できなくなる
  正直、最近出る新作のほとんどは、同じゲームプレイにグラフィックだけを更新したものに近い
  でも近いうちに自分でもそういうものが作れるようになるなら、大手スタジオは私たちをまた呼び戻すために何を用意しておくのか気になる
- 「特に理由もなく存在するプロシージャル生成の世界が欲しいなら外に出ればいい」という言葉で、数年前に屋外で運動を始めたときのことを思い出した
  それまではほとんど外に出ず、比較的暗い部屋にばかりいたのだが、ある日空を見て「うわ、この雲、Horizon や Assassin's Creed みたいなゲームの雲みたいだな」と思った
  アセットを見ていても少し悲しくなった。「赤い屋根と柵のある2階建てのレンガ造りの家」を見たら、three.js のアニメーション/キーフレームの例を思い出した
  three.js の例は人が手で作ったもので、すべての選択の背後に本物の意図があったが、Trellis はただ「ポン、ここにあります」という感じで、インターネットやゲームで見つかった作品の混合物に見える
  AIによって失われる価値もあるだろうが、だからこそ手作りコンテンツはより価値を持つかもしれない。ただ、その価値をアーティストが持続可能でいられるほど十分に私たちが認めるかは疑問だ
  https://threejs.org/examples/#webgl_animation_keyframes
- ゲーム開発者のかなりの数はレベルデザインが嫌いで、プロシージャル生成を使わない理由も、それが難しいから手作りの世界を無理やり構築しているためだ
  自分もそちら側なので、誰かが自分のゲームを遊んで、レベルが自分の頭の中から「湧き出た」と思うなら、かなり笑える気がする。まるで自分が深遠な芸術家であるかのように
  ゲーム開発の他の部分には大きな誇りがあるが、自分のレベルデザインはその一つではない
- この技術のせいで、人間の競争領域が根本的に変わることはないと思う
  広く使われ始めれば低品質な量産物があふれるだろうが、目的を持って何かを作ろうとする本物のアーティストたちは、この技術をより大きな何かへ進む足がかりとして使う方法を学ぶはずだ
  Martin Nebelong のような人たちを見ると、人間をループの中に残したままAIを活用する方法を学んでいる
  https://x.com/martinnebelong?s=21&t=cTpE-rRbCiocUlN0VaSheQ
- 3Dアセットを作れない人にとっては、本当に優れたプロトタイピングツールだ
  Unreal Blueprints のようなビジュアルスクリプティングが、プログラミングに慣れていない人にゲーム開発やMod制作を開いたのと似ている
  だから Blender や Maya などを学ばなくても、プロトタイプに入れるモデルを得られるなら悪くない。多少ばらつきがあって変に見えても、少なくともコンテンツはできる
わあ、結果が素晴らしい。専門家ではないけれど、最初の NeRF デモが出たときから、みんなが考えていたのはこれだった気がする
探していたら、5年前に自分がこれを望んで書いたコメントも見つけた: https://news.ycombinator.com/item?id=22642628
次のステップは、3D画像にモデルがピボットしたり回転したりできる「ノード」を自動で付けることだ。そうすれば、オンデマンドのアニメーションやインタラクティブコンテンツがすぐに出てくる
子どもの頃の写真を入れて記憶を再現し、愛する人の音声サンプルを加えて話しかけさせることもできる。没入感を高めたいなら、ノイズキャンセリングヘッドホンを着けてVRに入ればいい
近日公開！「Surrender Reality」のウェイティングリストに登録するには、ここをクリック
- 次のステップは、アニメーションや編集をしてもメッシュが壊れない、より高品質なメッシュトポロジーを持つモデルを生成することだ
  リトポロジーはかなりやってきたが、これらのモデルをそのままリギングすると、シェーディングや変形の問題があらゆる形で起きるはず。アニメーションしなくても、近くで見ると三角形化がかなり目立つ
  それでも高品質な3Dアセット生成は目前だと思う。ここで見えるアプローチに、推定方向場と特徴検出ベースのAI四角形リメッシュを組み合わせればよく、この分野も恐ろしいほど良くなっている
- 直感的には、3Dエンジンとこの技術の組み合わせは、潜在空間から直接ラスタライズ済み動画をレンダリングする現在の方式より良い解決策になりそうだ。偶然にもSoraも今日リリースされた
  メッシュをリギングしてアニメーションさせ、任意の動画のシーン全体を「デジタルツイン」として設定するようネットワークを学習させるのは、現実的ではないかもしれない
  それでもそうした構成が可能なら、他はそのままにしながら生成動画をはるかに細かく制御できそうだ
- ここで言う「ノード」が正確に何なのかはよく分からない。任意回転やズームは、レイジースーザンやぐるぐる回るエクソシストの頭が欲しいときには理論上よさそうに見えるだけだ
  次のステップはおそらく、よりまともな対称トポロジー、より良いUVマップ、そして簡単にアニメーションさせるための自動リギング（FK/IK）に近いものだろう
- これがゲーム開発スタジオの 3Dアーティストにどんな影響を与えるのか気になる
  スタジオはこうしたツールを使いながらアーティストを維持し、より多くのコンテンツをより速く簡単に作れるようにするのか。それとも一部だけ残して残りの80%を削減し、このツールで置き換えるのか
- オンデマンドのアニメーションやインタラクティブコンテンツだけでなく、静止画像のレンダリングにも有用だ
  これまでAIが生成した2D画像は、ライティングも間違っていてミスも多い。いったん3Dシーンになり、Blenderのような無料ツールでレンダリングすれば、ライティングは正確で設定可能になり、間違った細部も簡単に直せる
  すでにとんでもなく強力なツールがあり、ここからはさらにずっと速く強力になっていきそうだ
完璧ではないが、これまで使った大半の 3Dモデル生成ツールよりはるかに良い
以前は結果が信じられないほどひどかったが、今回は平均以上ではあった
あとはOrca Slicerにそのまま入れられるファイル形式を出してくれればいい
印象的だ。layer diffusionでこういうローポリ飛行船を作った: https://image.non.io/b3f843be-b1b4-468a-a0ec-9d58b191beee.we...
結果はこうだ: https://video.non.io/video-2732101706.mp4
正直、まったく悪くなく、ゲームアセットとして使えるところに近づいている
Wikipediaの F-117ステルス機の画像を入れてみたが、出力は完全に失敗だった
プロジェクトページの例はどう生成したのか分からないほどで、基本的なシルエットから完全に間違っていた
複数の角度から撮った画像をアップロードして補正できることを期待したが、そういう機能はなさそうだ
- F-117は特殊な見た目をしている。もともとどういう形か知らなければ、特定の角度からの単一ビューだけで外挿するのは人間にとってもかなり難しい
  データセットになかったなら、その程度は大目に見てもいい。特に角張った形のせいで、航空機ではないと誤判断しやすくも見える
  モデル品質全般について言いたいわけではなく、F-117はほぼ間違いなく不公平なテストになりそうだ
数日前にも投稿されているのを見たが、とても印象的なデモなので、ここで議論されてほしい
https://news.ycombinator.com/item?id=42342557
可能性は見えるが、私が入れた画像は学習分布から大きく外れていたのか、変な平たい板ばかり生成された
- キャラクターや物体を上から見下ろす、アイソメトリックゲームのような画像ではうまく動くようにできた
  正面向きの画像を使うと、全部平たい結果になった
- また一つの奇跡のようなツールだ。実際に自分でテストしてみるまでは
画像によって大きく変わるが、動物の毛をポリゴンメッシュと透明テクスチャの適切な組み合わせで再現したのは本当に驚きだった
ページの例でも、この能力は示されていなかった
https://imgur.com/a/qJp4HNX
AlphaFoldは1次元のタンパク質配列から3Dを生成するモデルだが、内部のデータ表現は華やかで複雑だ
一方でこの論文は、基本的に入力データをボクセル化し、さまざまな角度から写真を大量に撮って学習セットを作るという点が興味深い
これを使って、AI生成画像から 3Dプリントまで持っていけた。手順はここにまとめた: https://x.com/ryanlanciaux/status/1866163343788007619
- 本当に未来的だ。言葉で画像を作り、それを家で物理的な物体に変えられるのに、その過程を説明したプレーンテキストと画像は、壊れたサイトのせいで読めない

TRELLIS - 3Dメッシュ生成モデル

TRELLISの目標と範囲

Structured LATent（SLAT）表現

生成モデル構造と学習

生成・編集例と出力形式

研究目的と制限事項

関連記事

1件のコメント

Hacker News の意見