Stable Video 3D: 単一画像からの高品質な新規ビュー合成と3D生成
- Stable Video Diffusionをベースにした生成モデル Stable Video 3D(SV3D)を公開。動画品質とビューの一貫性を大幅に向上
- 2つのバリエーションを含む: SV3D_u と SV3D_p
- SV3D_u はカメラ条件なしで、単一画像入力に基づいてオービット動画を生成
- SV3D_p は単一画像とオービットビューの両方を受け入れ、指定されたカメラ経路に沿って3D動画を生成するよう機能を拡張
- Stable Video 3D は商用目的では Stability AI メンバーシップを通じて利用でき、非商用用途では Hugging Face からモデル重みをダウンロードし、研究論文を閲覧可能
Video Diffusionの利点
- Stable Video Diffusion の image-to-video diffusion モデルにカメラ経路条件を追加して適用することで、Stable Video 3D は物体のマルチビュー動画を生成可能
- Video Diffusion モデルの利用は、Stable Zero123 で使われた画像拡散モデルと比較して、生成出力の汎化性能とビュー一貫性の面で大きな利点を提供
- さらに、Stable Video 3D の強力な機能を活用し、物体の周囲を任意に周回する軌道を生成する改良された3D最適化を提案
新規ビュー生成
- SV3D は特に新規ビュー合成(NVS)において重要な進展を導入
- 従来の手法がしばしば限られた視点や出力の不整合という問題に直面していたのに対し、SV3D は任意の角度において一貫したビューを提供
- この能力はポーズ制御性を高めるだけでなく、マルチビュー間で一貫した物体の外観を保証し、現実的で正確な3D生成の重要な側面をさらに改善
3D生成
- SV3D はマルチビュー一貫性を活用し、3D Neural Radiance Field(NeRF)とメッシュ表現を最適化することで、新規ビューから直接生成された3Dメッシュの品質を向上
- このために、予測されたビューから見えない領域の3D品質をさらに高めるための mask score distillation sampling loss を設計
- また、SV3D はベイクされた照明の問題を減らすため、3D形状とテクスチャとともに最適化される分離型の照明モデルを使用
1件のコメント
Hacker Newsの意見