4 ポイント 投稿者 GN⁺ 2024-07-03 | 1件のコメント | WhatsAppで共有
  • テキストから3Dアセットを生成するための、新しい最先端の高速パイプライン
  • 3DGen は、プロンプト忠実度が高く高品質な3D形状とテクスチャを1分以内に生成可能
  • 実世界アプリケーションで3Dアセットの再照明に必要な PBR(物理ベースレンダリング)をサポート
  • 以前に生成された(またはアーティストが作成した)3D形状のマテリアル感を、ユーザーが追加で提供したテキスト入力を使って生成的に変更できる
  • 3DGen は、テキストから3D生成とテキストからテクスチャ生成のために開発された Meta 3D AssetGen と Meta 3D TextureGen という中核技術コンポーネントを統合
  • この2つの技術を組み合わせることで、3DGen は3Dオブジェクトをビュー空間、ボリューム空間、UV(またはテクスチャ)空間で同時に3通りに表現
  • 単一段階モデルに対して 68% の勝率を達成
  • 3DGen は、プロンプト忠実度と複雑なテキストプロンプトに対する視覚品質の面で業界ベンチマークを上回りながら、はるかに高速
関連論文
Meta 3D AssetGen: 高品質なジオメトリ、テクスチャ、および PBR マテリアルを備えたテキスト-メッシュ生成
  • AssetGen は、質感とマテリアル制御を備えた忠実で高品質なメッシュを生成する、テキストから3D生成における重要な進展
  • 3Dオブジェクトの外観にシェーディングを焼き込む手法と比べて、AssetGen は実際の再照明をサポートする PBR マテリアルを出力
  • AssetGen はまず、分解されたシェーディングおよびアルベド外観チャネルでオブジェクトの複数ビューを生成し、その後、効率的な教師あり学習のために遅延シェーディング損失を用いて、3D 上で色、金属感、粗さを再構成
  • さらに、符号付き距離関数を用いて3D形状をより安定的に表現し、直接的な形状監督のための対応する損失を導入
  • メッシュ抽出後、UV 空間で動作するテクスチャ改良トランスフォーマーが鮮明さとディテールを大幅に向上
  • AssetGen は、少数ビュー再構成において、同種の最先端手法と比べて Chamfer 距離で 17%、LPIPS で 40% の改善を達成し、PBR をサポートする同程度の速度の業界最高クラス競合よりも 72% の人間選好率を達成
Meta 3D TextureGen: 3Dオブジェクト向けの高速で一貫したテクスチャ生成
  • テキスト画像モデルの近年の利用可能性と適応性により、テクスチャ生成のような多くの関連分野で新たな時代が開かれている
  • 近年のテクスチャ生成手法はテキスト画像ネットワークを使って印象的な結果を達成しているが、グローバルな一貫性、品質、速度の組み合わせは、テクスチャ生成を実用アプリケーションへ発展させるうえで重要
  • 任意のジオメトリに対して 20 秒未満で高品質かつグローバルに一貫したテクスチャを生成する、2つの逐次ネットワークで構成された新しいフォワード手法 Meta 3D TextureGen を紹介
  • 3DGen は、2D 空間内の 3D セマンティクスにテキスト画像モデルを条件付けし、それを完全で高解像度の UV テクスチャマップへ融合することで、品質と速度の両面で最先端の結果を達成
  • さらに、任意の倍率でテクスチャを拡張して 4k ピクセル解像度のテクスチャを生成できるテクスチャ強化ネットワークも導入
GN+ の意見
  • 3DGen は、3Dアセット生成分野における革新的な進歩に見える。テキストプロンプトに基づく高品質な3Dモデルを高速に生成できる技術は、ゲーム、映画、デザインなど幅広い分野で活用できそう
  • 特に PBR マテリアルのサポートと、すでに作成された3Dモデルのテクスチャを変更できる機能は、実用性を高めると期待される
  • ただし、テキストプロンプトの意味を正確に把握し、意図どおりに3Dモデルを生成することは、依然として難しい課題だろう。プロンプトエンジニアリング技術の発展も合わせて必要に見える
  • 3Dモデリング分野の専門家がこの技術をどのように活用するのか、創造性の発揮にどのような影響を与えるのかが気になる。既存の3Dモデリングツールとの違い、長所と短所の比較も必要そう
  • Nvidia の GET3D、Luma Lab の Imagine 3D など、類似の機能を提供する他のソリューションもある。性能と使いやすさの面でどのような長所・短所があるのか、比較分析が必要
  • 3Dモデル生成技術の発展によって、誰でも簡単に望む3Dモデルを作れるようになる一方で、3Dモデルの著作権問題や悪用の可能性など、新たな課題が浮上する可能性がある。これに対する社会的な議論と合意形成が必要に見える

1件のコメント

 
GN⁺ 2024-07-03
Hacker Newsのコメント
  • あるユーザーは、生成AIの重要な側面として3Dモデリングの進展を前向きに捉えており、特にVRアセット生成の難しさに言及している

    • 実世界のアイテムを3Dプリントできるモデルを、AIがテキスト、写真、LIDARなどの入力から作れる可能性に関心を示している
  • 別のユーザーは、VRコンテンツ生成は非常に労働集約的であり、3Dモデル生成ツールがメタバースの主要な推進力になることを期待している

  • また別のユーザーは、最近のテキスト/画像から3Dモデルへ変換するサービスはどれも役に立たない結果しか生成していないと評価している

  • あるユーザーは、PBRテクスチャリングパイプラインを使ってシステム全体を動かしている点が非常に印象的だと述べている

    • SDFs(符号付き距離関数)の使用が悪いトポロジーを引き起こす可能性があるのか気にしている
    • ゲーム向けのトポロジーを構築する論文に触れつつ、アニメーションのためのリギングも可能だろうと見ている
  • 別のユーザーは、ワイヤーフレームが不足していることからトポロジーが良くないと分かると述べている

  • あるユーザーは、これは現実をデジタルで再現するための、もう一つの先駆的な段階だと考えている

    • 人の状態に反応できるのであれば、安全な環境で現実では扱いにくいシナリオを学習できるだろうと見ている
    • 仮想世界で学んだ教訓をもとに、新たな誕生のように現実世界へ出ていけるだろうとしている
  • また別のユーザーは、単純な3D-to-3D変換がまもなく可能になることを期待している

    • それによって古いゲームのメッシュやテクスチャをアップスケールしたいと述べている
  • あるユーザーは、アーティストの入力があれば、生成されたモデルを後から編集したり出発点として使ったりできるだろうと想像している

    • あるいはPS1フィルターを適用してレトロゲームを作れるだろうとも述べている
  • Meta 3D Genは、VRアプリケーション向けの3Dコンテンツ生成における重要な前進を示していると評価している

    • テキスト入力から詳細な3Dモデルを生成する能力は、コンテンツ生成プロセスを大幅に短縮できる可能性があると見ている
    • しかし現在の技術は、高品質で詳細なジオメトリを生成するうえで依然として課題があるとも述べている
    • PBRテクスチャリングの統合は有望だが、実際の応用でモデルをどこまで洗練し活用できるかが鍵だと見ている
  • 最後に、あるユーザーは、ニューラルネットワークを用いたスクリーンド・ポアソン表面再構成の代替技術を見てみたいと述べている

    • MeshAnythingは見たが、それが最終目標ではないとも述べている