2 ポイント 投稿者 GN⁺ 2024-03-19 | 1件のコメント | WhatsAppで共有

Stable Video 3D: 単一画像からの高品質な新規ビュー合成と3D生成

  • Stable Video Diffusionをベースにした生成モデル Stable Video 3D(SV3D)を公開。動画品質とビューの一貫性を大幅に向上
  • 2つのバリエーションを含む: SV3D_u と SV3D_p
    • SV3D_u はカメラ条件なしで、単一画像入力に基づいてオービット動画を生成
    • SV3D_p は単一画像とオービットビューの両方を受け入れ、指定されたカメラ経路に沿って3D動画を生成するよう機能を拡張
  • Stable Video 3D は商用目的では Stability AI メンバーシップを通じて利用でき、非商用用途では Hugging Face からモデル重みをダウンロードし、研究論文を閲覧可能

Video Diffusionの利点

  • Stable Video Diffusion の image-to-video diffusion モデルにカメラ経路条件を追加して適用することで、Stable Video 3D は物体のマルチビュー動画を生成可能
  • Video Diffusion モデルの利用は、Stable Zero123 で使われた画像拡散モデルと比較して、生成出力の汎化性能とビュー一貫性の面で大きな利点を提供
  • さらに、Stable Video 3D の強力な機能を活用し、物体の周囲を任意に周回する軌道を生成する改良された3D最適化を提案

新規ビュー生成

  • SV3D は特に新規ビュー合成(NVS)において重要な進展を導入
  • 従来の手法がしばしば限られた視点や出力の不整合という問題に直面していたのに対し、SV3D は任意の角度において一貫したビューを提供
  • この能力はポーズ制御性を高めるだけでなく、マルチビュー間で一貫した物体の外観を保証し、現実的で正確な3D生成の重要な側面をさらに改善

3D生成

  • SV3D はマルチビュー一貫性を活用し、3D Neural Radiance Field(NeRF)とメッシュ表現を最適化することで、新規ビューから直接生成された3Dメッシュの品質を向上
  • このために、予測されたビューから見えない領域の3D品質をさらに高めるための mask score distillation sampling loss を設計
  • また、SV3D はベイクされた照明の問題を減らすため、3D形状とテクスチャとともに最適化される分離型の照明モデルを使用

1件のコメント

 
GN⁺ 2024-03-19
Hacker Newsの意見
  • 最初のユーザーは、4090グラフィックカード(24GB VRAM)を使ってStable Video 3D(SV3D)モデルを試したが、メモリ不足で1分以上実行した後にクラッシュしたと述べている。スクリプトを調整して同時に生成するフレーム数を減らしたところ、生成に成功し、VRAM使用量は最大19.5GB、225ワットで1分25秒かかった。

    Stable Video 3D(SV3D): 静止画像を入力として受け取り、そのオブジェクトの軌道ビデオを生成する生成モデルで、Stable Video Diffusionに基づいている。

  • 2番目のユーザーは、SV3Dが実際の3Dモデルを出力できるのか、それとも別の角度から見たときにオブジェクトがどう見えるかについての画像だけを生成するのか気にしている。
  • 3番目のユーザーは、提示されたアニメーションが代表的なものなら、生成されたメッシュは3Dプリンターで使うのに十分な品質かもしれないと考えており、実験を期待している。
  • 4番目のユーザーは、SV3Dを実行できるハードウェアまたはメモリ要件について質問している。
  • 5番目のユーザーは、入力に複数の画像が必要なのか、試せるデモURLがあるのか気にしており、「単一画像入力」が複数画像を意味するのかについて質問している。
  • 6番目のユーザーは、すべての例がプラスチック製の子ども用おもちゃのように見えると述べ、ほかのオブジェクト(人、布地、建物、植物、山、機械部品など)をどう扱うのか気にしている。
  • 7番目のユーザーは、デモアニメーションが非常に巧妙で満足感があると評価している。
  • 8番目のユーザーは、このような技術を建築デザインに使えるようになることを期待している。
  • 9番目と10番目のコメントは、それぞれ「[dead]」と「[flagged]」と表示されており、内容は分からない。