- Voyagerは、入力画像とユーザーが指定したカメラ経路に基づいて、一貫した3Dポイントクラウドシーケンスを生成する新しい動画拡散フレームワークです
- RGBと深度情報を同時に生成し、効率的かつ直接的な3D再構成を可能にします
- 大規模動画データセット生成パイプラインを導入し、手作業の3Dアノテーションなしで多様な学習データを確保します
- WorldScoreベンチマークで既存の複数モデルと比べ、3D一貫性、コンテンツ整合性などさまざまな項目で優れた性能を示します
- 単一または複数GPUで最適化された並列推論をサポートし、リアルタイムデモを通じて多様な応用可能性を示します
プロジェクト紹介
- HunyuanWorld-Voyagerは、入力画像とユーザーが指定したカメラ移動経路に基づいて、世界一貫性(3D-Consistent)のポイントクラウド動画シーケンスを生成します
- ユーザーは自由にカメラ経路を設定し、ワールド探索のための3Dシーン動画を作成できます
- RGBと深度(Depth)動画を同時にカスタム生成し、高速で信頼性の高い3D再構成を可能にします
アーキテクチャ
- Voyagerは2つの中核コンポーネントで設計されています
- (1) 世界一貫性動画拡散構造: グローバルなシーン一貫性を保証し、RGBと深度を整列した状態で同時に生成します
- (2) 長距離ワールド探索: ポイントカリングと自己回帰推論、滑らかな動画サンプリングを活用した文脈一貫的なシーン拡張をサポートします
データエンジン
- Voyagerの学習のために、動画再構成パイプラインベースの拡張型データエンジンを別途設計しています
- 任意の一般動画に対してカメラポーズ推定とメートルベース深度予測を自動化し、手作業なしで大規模な学習データセットを生成可能です
- 実写映像およびUnreal Engineベースの合成データなどを含み、10万本以上の動画クリップで構成されたデータセットを提供します
主な機能とデモ
- カメラ経路制御ベースのインタラクティブ動画生成デモを提供
- 生成された動画と連動した3Dポイントクラウドを即時に再構成可能
- 単一画像からの3Dシーン生成、動画深度推定など多様な活用シナリオを実演
性能比較
- WorldScoreベンチマークで評価
- Voyagerは複数カテゴリ(カメラ制御、オブジェクト制御、コンテンツ整合性、3D一貫性など)で最上位クラスの性能を記録しています
- 特に主観品質(Subjective Quality)、3D一貫性部門で最高スコアを獲得しています
システム要件
- 単一の80GB GPUで540p解像度の映像を生成する場合、最低60GBのメモリが必要
- Linuxオペレーティングシステムおよび**CUDA 12.4(推奨80GB以上)**環境で最適な性能を提供します
並列推論性能
- xDiTベースのマルチGPU並列推論をサポート
- H20 GPUを8基使用した場合、49フレーム・50ステップ(512x768)基準で288秒で結果を生成(単一GPU比で6.69倍高速化)
ユーザーインターフェースとデモ
- Gradioベースのリアルタイムデモを提供
- 画像アップロード、カメラ方向の選択、プロンプトテキスト入力によりRGB-D動画を簡単に生成可能
データエンジン公開
- RGB-D動画学習用の大規模でスケーラブルなデータ生成エンジンもオープンソースとして提供します
引用と参考
- arXiv論文: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- 各種オープンソース(VGGT, MoGE, Metric3D など)に基づく研究成果をもとにHunyuanWorld-Voyagerを設計・実装しています
プロジェクトの主な価値と差別化ポイント
- Voyagerは、単一画像から**世界一貫性のある3D動画(ポイントクラウドベース)**を多様な経路で出力できる点が、既存の大多数の画像-to-動画生成プロジェクトに対する強みです
- RGBと深度情報の両方を生成し、大規模な自動化データエンジンもあわせて提供することで、実際の3Dコンテンツ生成、仮想環境制作、デジタルツイン、AIGC応用など多様な産業での活用可能性が高いです
まだコメントはありません。