1 ポイント 投稿者 GN⁺ 2025-09-05 | まだコメントはありません。 | WhatsAppで共有
  • Voyagerは、入力画像とユーザーが指定したカメラ経路に基づいて、一貫した3Dポイントクラウドシーケンスを生成する新しい動画拡散フレームワークです
  • RGBと深度情報を同時に生成し、効率的かつ直接的な3D再構成を可能にします
  • 大規模動画データセット生成パイプラインを導入し、手作業の3Dアノテーションなしで多様な学習データを確保します
  • WorldScoreベンチマークで既存の複数モデルと比べ、3D一貫性、コンテンツ整合性などさまざまな項目で優れた性能を示します
  • 単一または複数GPUで最適化された並列推論をサポートし、リアルタイムデモを通じて多様な応用可能性を示します

プロジェクト紹介

  • HunyuanWorld-Voyagerは、入力画像とユーザーが指定したカメラ移動経路に基づいて、世界一貫性(3D-Consistent)のポイントクラウド動画シーケンスを生成します
  • ユーザーは自由にカメラ経路を設定し、ワールド探索のための3Dシーン動画を作成できます
  • RGBと深度(Depth)動画を同時にカスタム生成し、高速で信頼性の高い3D再構成を可能にします

アーキテクチャ

  • Voyagerは2つの中核コンポーネントで設計されています
    • (1) 世界一貫性動画拡散構造: グローバルなシーン一貫性を保証し、RGBと深度を整列した状態で同時に生成します
    • (2) 長距離ワールド探索: ポイントカリングと自己回帰推論、滑らかな動画サンプリングを活用した文脈一貫的なシーン拡張をサポートします

データエンジン

  • Voyagerの学習のために、動画再構成パイプラインベースの拡張型データエンジンを別途設計しています
    • 任意の一般動画に対してカメラポーズ推定とメートルベース深度予測を自動化し、手作業なしで大規模な学習データセットを生成可能です
    • 実写映像およびUnreal Engineベースの合成データなどを含み、10万本以上の動画クリップで構成されたデータセットを提供します

主な機能とデモ

  • カメラ経路制御ベースのインタラクティブ動画生成デモを提供
  • 生成された動画と連動した3Dポイントクラウドを即時に再構成可能
  • 単一画像からの3Dシーン生成動画深度推定など多様な活用シナリオを実演

性能比較

  • WorldScoreベンチマークで評価
    • Voyagerは複数カテゴリ(カメラ制御、オブジェクト制御、コンテンツ整合性、3D一貫性など)で最上位クラスの性能を記録しています
    • 特に主観品質(Subjective Quality)3D一貫性部門で最高スコアを獲得しています

システム要件

  • 単一の80GB GPUで540p解像度の映像を生成する場合、最低60GBのメモリが必要
  • Linuxオペレーティングシステムおよび**CUDA 12.4(推奨80GB以上)**環境で最適な性能を提供します

並列推論性能

  • xDiTベースのマルチGPU並列推論をサポート
    • H20 GPUを8基使用した場合、49フレーム・50ステップ(512x768)基準で288秒で結果を生成(単一GPU比で6.69倍高速化)

ユーザーインターフェースとデモ

  • Gradioベースのリアルタイムデモを提供
    • 画像アップロード、カメラ方向の選択、プロンプトテキスト入力によりRGB-D動画を簡単に生成可能

データエンジン公開

  • RGB-D動画学習用の大規模でスケーラブルなデータ生成エンジンもオープンソースとして提供します

引用と参考

  • arXiv論文: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • 各種オープンソース(VGGT, MoGE, Metric3D など)に基づく研究成果をもとにHunyuanWorld-Voyagerを設計・実装しています

プロジェクトの主な価値と差別化ポイント

  • Voyagerは、単一画像から**世界一貫性のある3D動画(ポイントクラウドベース)**を多様な経路で出力できる点が、既存の大多数の画像-to-動画生成プロジェクトに対する強みです
  • RGBと深度情報の両方を生成し、大規模な自動化データエンジンもあわせて提供することで、実際の3Dコンテンツ生成、仮想環境制作、デジタルツイン、AIGC応用など多様な産業での活用可能性が高いです

まだコメントはありません。

まだコメントはありません。