1 ポイント 投稿者 GN⁺ 2024-12-10 | 1件のコメント | WhatsAppで共有

新しい3D生成手法の紹介

  • Structured LATent (SLAT) 表現: 多様な出力形式にデコードできる統合的な構造化潜在表現を紹介。これは、強力なビジョンベースモデルから抽出した高密度なマルチビュー視覚特徴と、疎に充填された3Dグリッドを統合し、構造的(幾何学的)情報とテクスチャ的(外観)情報を包括的に捉える。

  • Rectified Flow Transformers: SLAT向けに設計された3D生成モデルで、50万個の多様なオブジェクトからなる大規模3Dアセットデータセットで、最大20億パラメータのモデルを学習。テキストまたは画像条件で高品質な結果を生成し、既存手法を大きく上回る。

3Dアセットの生成と編集

  • テキストおよび画像ベースの3Dアセット生成: TRELLISは、テキストまたは画像プロンプトを使って多様な3Dアセットを生成できる。例として、銅製の回転式電話機、2階建てのレンガ造りの家、球体ロボットなどがある。

  • アセットのバリエーション生成と局所編集: 与えられた3Dアセットのバリエーションをテキストプロンプトに応じて生成でき、特定の領域を操作して新しいデザインを作成できる。たとえば、戦闘ロボットの腕を取り外したり、武器を追加したりすることが可能。

TRELLISの応用と方法論

  • 3Dアートデザイン: TRELLISが生成した高品質な3Dアセットを組み合わせることで、複雑で生き生きとした3Dアートデザインを簡単に作成できる。

  • 構造化潜在表現: SLATは、疎な構造と強力な視覚表現を組み合わせ、オブジェクト表面と交差するアクティブなボクセルに局所潜在を定義する。これらの特徴は、強力に事前学習されたビジョンエンコーダに由来し、詳細な幾何学的特性と視覚的特性を捉える。

  • TRELLISモデル: テキストプロンプトまたは画像を条件とする大規模3D生成モデルを学習する。2段階のパイプラインを適用してSLATの疎構造を生成した後、空でないセルに対する潜在ベクトルを生成する。多様な出力形式で3Dアセットを容易に生成できる。

1件のコメント

 
GN⁺ 2024-12-10
Hacker Newsの意見
  • AI生成コンテンツを見て、初めて気分が悪くなった。こうしたコンテンツは非常に見事だが、人の手で作られた作品が消えていくようで悲しい。手続き的に生成されたゲームよりも、人の思考から生まれた世界を求めている。

    • コンテンツではなく芸術作品を求めている。仲間たちが自分のビジョンと価値観を込めて作った作品を求めている。
  • NeRFのデモ以来、誰もが考えてきたことのように思う。5年前の自分のコメントを見つけた。次の段階は、3D画像に「ノード」を追加して、アニメーションやインタラクションが可能なコンテンツを作ることだ。

    • 子どもの頃の写真を入力して思い出を再現し、愛する人の音声サンプルを追加して会話できるようにする。VRとノイズキャンセリングヘッドホンで没入感を高められる。
  • 完璧ではないが、これまで試した中では最高の3Dモデル生成器だ。Orca Slicerにそのまま入れられるファイル形式が欲しい。

  • WikipediaのF-117ステルス爆撃機の画像を試したが、結果は完全に失敗だった。複数角度の画像をアップロードできる機能が必要だ。

  • 「Text to 3D Asset」機能のデモがあるのか気になる。

  • 数日前に投稿されたのを見たが、非常に印象的なデモだ。ここで議論されてほしい。

  • 可能性は感じるが、与えた画像が学習範囲外だったようで、奇妙な平面しか生成されなかった。

  • レイヤー拡散を使ってローポリエアシップを作った。ゲームアセットとして使える水準に達している。

  • ケーブルとプラグの写真をアップロードして、個々のワイヤーと正しい穴を備えたプラグのメッシュを生成した。

  • Nixの雪の結晶モデリングは非常にひどかった。自然や生物学的構造、テクスチャにより多く学習しているようだ。