Voyager – リアルタイム3D再構成を支援するインタラクティブ動画生成モデル

(github.com/Tencent-Hunyuan)

1 ポイント投稿者 GN⁺ 2025-09-05 | まだコメントはありません。 | WhatsAppで共有

Voyagerは、入力画像とユーザーが指定したカメラ経路に基づいて、一貫した3Dポイントクラウドシーケンスを生成する新しい動画拡散フレームワークです
RGBと深度情報を同時に生成し、効率的かつ直接的な3D再構成を可能にします
大規模動画データセット生成パイプラインを導入し、手作業の3Dアノテーションなしで多様な学習データを確保します
WorldScoreベンチマークで既存の複数モデルと比べ、3D一貫性、コンテンツ整合性などさまざまな項目で優れた性能を示します
単一または複数GPUで最適化された並列推論をサポートし、リアルタイムデモを通じて多様な応用可能性を示します

プロジェクト紹介

HunyuanWorld-Voyagerは、入力画像とユーザーが指定したカメラ移動経路に基づいて、世界一貫性（3D-Consistent）のポイントクラウド動画シーケンスを生成します
ユーザーは自由にカメラ経路を設定し、ワールド探索のための3Dシーン動画を作成できます
RGBと深度（Depth）動画を同時にカスタム生成し、高速で信頼性の高い3D再構成を可能にします

アーキテクチャ

Voyagerは2つの中核コンポーネントで設計されています
- (1) 世界一貫性動画拡散構造: グローバルなシーン一貫性を保証し、RGBと深度を整列した状態で同時に生成します
- (2) 長距離ワールド探索: ポイントカリングと自己回帰推論、滑らかな動画サンプリングを活用した文脈一貫的なシーン拡張をサポートします

データエンジン

Voyagerの学習のために、動画再構成パイプラインベースの拡張型データエンジンを別途設計しています
- 任意の一般動画に対してカメラポーズ推定とメートルベース深度予測を自動化し、手作業なしで大規模な学習データセットを生成可能です
- 実写映像およびUnreal Engineベースの合成データなどを含み、10万本以上の動画クリップで構成されたデータセットを提供します

主な機能とデモ

カメラ経路制御ベースのインタラクティブ動画生成デモを提供
生成された動画と連動した3Dポイントクラウドを即時に再構成可能
単一画像からの3Dシーン生成、動画深度推定など多様な活用シナリオを実演

性能比較

WorldScoreベンチマークで評価
- Voyagerは複数カテゴリ（カメラ制御、オブジェクト制御、コンテンツ整合性、3D一貫性など）で最上位クラスの性能を記録しています
- 特に主観品質（Subjective Quality）、3D一貫性部門で最高スコアを獲得しています

システム要件

単一の80GB GPUで540p解像度の映像を生成する場合、最低60GBのメモリが必要
Linuxオペレーティングシステムおよび**CUDA 12.4（推奨80GB以上）**環境で最適な性能を提供します

並列推論性能

xDiTベースのマルチGPU並列推論をサポート
- H20 GPUを8基使用した場合、49フレーム・50ステップ（512x768）基準で288秒で結果を生成（単一GPU比で6.69倍高速化）

ユーザーインターフェースとデモ

Gradioベースのリアルタイムデモを提供
- 画像アップロード、カメラ方向の選択、プロンプトテキスト入力によりRGB-D動画を簡単に生成可能

データエンジン公開

RGB-D動画学習用の大規模でスケーラブルなデータ生成エンジンもオープンソースとして提供します

引用と参考

arXiv論文: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
各種オープンソース（VGGT, MoGE, Metric3D など）に基づく研究成果をもとにHunyuanWorld-Voyagerを設計・実装しています

プロジェクトの主な価値と差別化ポイント

Voyagerは、単一画像から**世界一貫性のある3D動画（ポイントクラウドベース）**を多様な経路で出力できる点が、既存の大多数の画像-to-動画生成プロジェクトに対する強みです
RGBと深度情報の両方を生成し、大規模な自動化データエンジンもあわせて提供することで、実際の3Dコンテンツ生成、仮想環境制作、デジタルツイン、AIGC応用など多様な産業での活用可能性が高いです

まだコメントはありません。

まだコメントはありません。