- Hunyuan3D 2.0は、高解像度テクスチャの3Dアセット生成のための大規模3D合成システム
- 2つの主要コンポーネント:
- Hunyuan3D-DiT: 大規模形状生成モデルで、スケーラブルなフロー型拡散Transformerをベースに構築され、特定の条件画像に整合したジオメトリを生成することで安定した基盤を提供
- Hunyuan3D-Paint: 強力なジオメトリおよび拡散の事前知識を活用し、生成されたメッシュ(mesh)や手作業メッシュに対して高解像度で鮮やかなテクスチャマップを生成
- Hunyuan3D-Studioは、3Dアセットの再生成プロセスを容易にするプラットフォームで、専門家とアマチュアの双方が効率的にメッシュを操作したりアニメーション化したりできるようにする
- Hunyuan3D 2.0は、既存のオープンソースおよび非公開モデルより優れた性能を示す: ジオメトリの詳細、条件整合性、テクスチャ品質など
Hunyuan3D 2.0
アーキテクチャ
- 2段階の生成パイプライン: メッシュ生成後にテクスチャマップを合成
- 形状生成とテクスチャ生成の難しさを分離し、生成されたメッシュや手作業メッシュに柔軟にテクスチャリングを提供
性能
- Hunyuan3D 2.0は、他のオープンソースおよび非公開の3D生成手法と比較して優れた性能を示す
- CMMD、FID_CLIP、FID、CLIP-scoreですべての基準を上回る
事前学習済みモデル
- Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6Bパラメータ
- Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3Bパラメータ
- Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3Bパラメータ
APIの使い方
- Hunyuan3D-DiTおよびHunyuan3D-Paintモデルを使用するためのdiffusers類似API設計
- Hunyuan3D-DiTでメッシュ生成が可能
- Hunyuan3D-Paintでテクスチャ合成が可能
Gradioアプリ
- Gradioアプリを通じて個人のコンピュータでホスティング可能
📑 オープンソース計画
- 推論コード、モデルチェックポイント、技術レポート、ComfyUI、TensorRT版を含む
1件のコメント
Hacker Newsの意見
3Dメッシュモデルに関する質問として、フォトグラメトリに適したモデルがあるかどうかについての議論がある。高品質な写真、一貫した照明、単色の背景を使っても、一般的なアプリケーションでは低ポリゴンだったり穴の多いメッシュが生成される。
生成AIが3Dインタラクティブコンテンツ制作の限界費用を0に引き下げるだろうという意見がある。これはメタバースを活性化させる可能性を持つ。
Tencent Hunyuan 3D 2.0のライセンスは、欧州連合、英国、韓国では適用されない。
メッシュがマーチングキューブアルゴリズムで生成されることを示す図があるが、実際には別の方法で生成されているようだという意見がある。
AIモデルを自宅で実行できるかどうかについての質問がある。たとえば、4090グラフィックカードで実行可能かどうかが議論されている。
「高級」という単語が含まれているものは良いものだ、という意見がある。
ユーザー生成コンテンツシステムは「ペニス問題」と呼ばれる問題に悩まされる可能性がある。
生成モデルは信頼しても検証が必要だ、という意見がある。自分で試してみることが重要だ。
Hugging Faceページにリンクされているモデルを試してみたが、過負荷エラーのためテストできなかった。結果はかなり良さそうに見える。
長いプロンプトが必要で、それが疑念を招くことがある。実際の使い勝手がどれほど難しいかを知るために、簡単なプロンプトで試してみた。
「ギター」プロンプトの結果はやや厚みのあるギターとして現れ、「モンステラの葉」プロンプトの結果は少し奇妙な形になった。
「スーパーマリオ」のキャラクタープロンプトの結果は疑わしい。ルイージはマリオとは違って見えるべきだが、そうなっていない。
「ピーチ」プロンプトの結果は思わず笑ってしまう。かわいい顔をした桃として現れる。
「キノピオ」プロンプトの結果は、変形したゼニガメのように見える。
論文はarXivで確認できる。生成モデルは大量のデータに基づいて学習されており、データベースのようなインターフェースが必要になるかもしれない。
3Dプリントの機能的なオブジェクト向けに特化したモデルも想像できる。