Voyager – リアルタイム3D再構成を支援するインタラクティブ動画生成モデル
(github.com/Tencent-Hunyuan)- Voyagerは、入力画像とユーザーが指定したカメラ経路に基づいて、一貫した3Dポイントクラウドシーケンスを生成する新しい動画拡散フレームワークです
- RGBと深度情報を同時に生成し、効率的かつ直接的な3D再構成を可能にします
- 大規模動画データセット生成パイプラインを導入し、手作業の3Dアノテーションなしで多様な学習データを確保します
- WorldScoreベンチマークで既存の複数モデルと比べ、3D一貫性、コンテンツ整合性などさまざまな項目で優れた性能を示します
- 単一または複数GPUで最適化された並列推論をサポートし、リアルタイムデモを通じて多様な応用可能性を示します
プロジェクト紹介
- HunyuanWorld-Voyagerは、入力画像とユーザーが指定したカメラ移動経路に基づいて、世界一貫性(3D-Consistent)のポイントクラウド動画シーケンスを生成します
- ユーザーは自由にカメラ経路を設定し、ワールド探索のための3Dシーン動画を作成できます
- RGBと深度(Depth)動画を同時にカスタム生成し、高速で信頼性の高い3D再構成を可能にします
アーキテクチャ
- Voyagerは2つの中核コンポーネントで設計されています
- (1) 世界一貫性動画拡散構造: グローバルなシーン一貫性を保証し、RGBと深度を整列した状態で同時に生成します
- (2) 長距離ワールド探索: ポイントカリングと自己回帰推論、滑らかな動画サンプリングを活用した文脈一貫的なシーン拡張をサポートします
データエンジン
- Voyagerの学習のために、動画再構成パイプラインベースの拡張型データエンジンを別途設計しています
- 任意の一般動画に対してカメラポーズ推定とメートルベース深度予測を自動化し、手作業なしで大規模な学習データセットを生成可能です
- 実写映像およびUnreal Engineベースの合成データなどを含み、10万本以上の動画クリップで構成されたデータセットを提供します
主な機能とデモ
- カメラ経路制御ベースのインタラクティブ動画生成デモを提供
- 生成された動画と連動した3Dポイントクラウドを即時に再構成可能
- 単一画像からの3Dシーン生成、動画深度推定など多様な活用シナリオを実演
性能比較
- WorldScoreベンチマークで評価
- Voyagerは複数カテゴリ(カメラ制御、オブジェクト制御、コンテンツ整合性、3D一貫性など)で最上位クラスの性能を記録しています
- 特に主観品質(Subjective Quality)、3D一貫性部門で最高スコアを獲得しています
システム要件
- 単一の80GB GPUで540p解像度の映像を生成する場合、最低60GBのメモリが必要
- Linuxオペレーティングシステムおよび**CUDA 12.4(推奨80GB以上)**環境で最適な性能を提供します
並列推論性能
- xDiTベースのマルチGPU並列推論をサポート
- H20 GPUを8基使用した場合、49フレーム・50ステップ(512x768)基準で288秒で結果を生成(単一GPU比で6.69倍高速化)
ユーザーインターフェースとデモ
- Gradioベースのリアルタイムデモを提供
- 画像アップロード、カメラ方向の選択、プロンプトテキスト入力によりRGB-D動画を簡単に生成可能
データエンジン公開
- RGB-D動画学習用の大規模でスケーラブルなデータ生成エンジンもオープンソースとして提供します
引用と参考
- arXiv論文: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- 各種オープンソース(VGGT, MoGE, Metric3D など)に基づく研究成果をもとにHunyuanWorld-Voyagerを設計・実装しています
プロジェクトの主な価値と差別化ポイント
- Voyagerは、単一画像から**世界一貫性のある3D動画(ポイントクラウドベース)**を多様な経路で出力できる点が、既存の大多数の画像-to-動画生成プロジェクトに対する強みです
- RGBと深度情報の両方を生成し、大規模な自動化データエンジンもあわせて提供することで、実際の3Dコンテンツ生成、仮想環境制作、デジタルツイン、AIGC応用など多様な産業での活用可能性が高いです
1件のコメント
Hacker Newsのコメント
このライセンスにはかなり興味深い条件がある。
EU AI法が理由だと思う。
実際にコンプライアンス確認アプリを試してみて、中小企業/オープンソース/研究/クライアントなしでチェックしても、なお登録、開示、各種手続きが複雑に絡んでいた。
草案は混乱していたし、改善されたようには見えたが、依然として不明確で官僚的だ。
EUのような地域はAI規制を積極的に進めようとしている。
オープンソースライブラリの目的は法的責任の回避だ。
しかし、こうした地域では責任の所在が複雑なので、単に利用自体を禁止する方向にしたのだと思う。
ライセンスの内容は「ブログや使用レビュー、『Powered by Tencent Hunyuan』表示」の推奨だが、
これはYouTuberの「チャンネル登録と高評価お願いします」みたいな新種の宣伝手法ではないかと思う。
こういう制限は実質的に悪意あるコンプライアンスだと見る。
実際、AI法では学習データと著作権適合性、リスク管理の方法について要約説明があればよい程度だ。
そこまで複雑でもロケット工学でもない。
それでも、EUでも実際にダウンロードして利用できるのかは気になる。
自分はライセンスを気にしないが、何かを取得するにはたぶん会員登録が必要なのではと思う。
技術的には単一の写真しか入力できないことも明記されているが、複数枚を入力してフォトグラメトリのようなことをしたら、もっと表現の幅が広がるのではないかと気になる。
自分もまったく同じ疑問があった。
自分の場合はまったく別の用途がある。
一部の区域ではLiDARボートで水深測定データを取得できず、興味深い領域にはデータがない。
ここには飛行動画(水面が透明に見える区間)だけがある。
十分な角度の動画があれば、水面反射のようなノイズを除去し、底の画像を補強してフォトグラメトリで復元を試せる。
重要なのは、正確な復元にはさまざまな角度のデータが必要だという点だ。
光やカメラ角度によって水中の視認性が変わるので、これまでは異なる時間帯に何度も飛行する必要があった。
もしかすると、このモデルで1枚から似たように復元できるのか試してみたい。
すでに複数画像を入力してこうした作業を行うフォトグラメトリモデルは存在する。
単一写真ではなく少数の写真を受け付けるよう機能拡張するのも、十分に誰かが試せるはずだ。
ただ、質問のニュアンスからすると、これは単に「うっかり書き漏らした」詳細のようにも聞こえる。
性能比較表で「最高点」を赤色で強調しているのが興味深い。
中国の株価チャートとまったく同じパターンだ。
中国では赤が上昇、緑が下落を意味する。
言われている通り、東アジア圏では赤はポジティブな意味を持つ。
ただ、自分がもっと不思議なのは3番目の色が黄色だという点だ。
一般的な視覚スペクトルの順序とは違う。
(赤〜700nm、緑〜550nm、黄〜580nm)
一般常識と異なる色の順序が興味深い。
色の意味は文化的な産物だ。
中国では赤の意味が西洋とは異なる。
そうした選択は中国的な文脈ではまったく珍しくない。
西洋のコミュニケーション(映画、ファッション)でも、このような意味を持つ象徴色はよく見られる。
中国を連想させる色として赤がよく登場する。
文化差から来る現象で、自分はとても興味深いと思う。
ただ、日常生活に影響はないので、単に面白い社会観察だ。
1995年にインド人教授の画像処理の講義を受けた。
そのときは低解像度画像をどうすればもっとよく見せられるかと尋ねて、「情報は創造できない」という答えをもらった。
しかし30年が過ぎた今、1枚の写真から動画を作れる時代になった。
実際には、画像からは思っている以上に多くの情報を抽出できる。
特に動画では、さらに多くの情報が得られる。
こういう技術を「スーパー解像」と呼ぶ。
情報を無から創造することはできないが、対象の特性に関する知識を使って、不足した部分を自然に補っていく方式だ。
技術の進歩は大きいが、実際には当時の「情報」と「創造」の意味が違う。
たとえば、子どもが人物写真に棒のような胴体をクレヨンで描き足すのも「情報追加」と言えるが、
それはもともと存在した実際の出来事の情報ではない。
そして研究者はデータを、記者は引用を勝手に作ることはできず、それぞれ責任の文脈が異なる。
このモデルは本当に完全な360度回転までできるのだろうか?
掲載されている動画を見ると、少し移動するか、せいぜいわずかにパンしているように見える。
各フレームごとにモデルが深度画像を作り、各ピクセルが3Dポイントになる。
3Dシーン全体が静的であるという前提なら、すべてのフレームを3Dポイントクラウドとして集めて積み上げられる。
その後は古典的な3Dレンダラーで自由に視点を回せる。
しかし実際の動画生成段階でフレームごとの情報の一貫性が足りない場合(例: 色の変化)、ポイントクラウドも「一貫して間違ったデータ」にすぎない。
結局、回して見ると色の組み合わせがずれてぼんやりブレンドされたように見える。
さらに、生成したシーンに仮想オブジェクトを正しく入れるのは難しい。
なぜなら照明情報がなく、色の混ざり方も環境になじまないからだ。
アイデアは素晴らしいが、追加で解決すべき問題が多い。
本当にVRでこういう機能を早く使ってみたくて期待している。
visionOS 26の「Immersive Photo」モードを一度試してみることを勧める。
iCloudライブラリ内の写真が自動的にローカルモデルによって変換される(おそらくGaussian Splat 3Dシーン方式)。
パンも回転も可能で、Vision Proの価値を感じられる。
昔撮ったNikon D70の写真でも、写っている風景や人物が現実のように見える。
あまり焦らないほうがいい。
まだ本当の高解像度120fps、安定した立体視(ステレオ)、超低遅延の段階には程遠い。
現状のまま適用すると、かなり酔うかもしれないと思う。
これらの動画の視野角(fov)があまりに落ち着かない。
現在、text-to-3D-asset(文章→3Dアセット)変換で最も優れたモデルや組み合わせは何なのか気になる。
オープンソースベースならなお良い。
あるいは文章+単一画像→スプライトシートも可能なのか気になる。
これは実際にはオープンソースではなく、「weights-available(重み公開)」形式だ。
学習データもなく、オープンソースが「改変に最も適した形」であるなら、データまで含まれているべきだ。
ライセンスの一部原文:
EU/UK/韓国の制限は、おそらくその地域がデータの無断学習に異議を唱えたり、金銭的補償を求めたりする可能性があるためだと推測する。
「オープンソースではない」という主張には同意するが、
「改変に最も適した形」が必ずしもデータ(学習データ)である必要はなく、重み(weights)こそがそれだ。
データは重みを修正するための手段だ。
ファインチューニングのほうがはるかに安価だという点を指摘したい。
AI2を除けば、実際のところほとんどのAIモデルは真のオープンソース(学習ログやデータまで公開)ではないと思う。
最近ではオープンソースという言葉は、実質的に「weights-available」の同義語のように使われている。
「7. 他人を害したり選挙を操作したりする目的で、明らかに虚偽の情報を作成・配布しないこと」
「8. 偽レビューなど虚偽のオンライン活動を作成しないこと」
→ 自分たちはやっておいて他人には禁止するのか、という話ではないか。
「15. 他の国家または地域の社会倫理・道徳に反する方法で使用しないこと」
など、現実的にはあらゆる地域での利用を難しくする条項だ。
ポリシーが厳しすぎる。
自分が関心を持っているのは、Panoramax(オープンなStreetView代替)の写真を入力して、3Dナビゲーション可能なシーンに再構成することだ。
カメラを1080度回せないのか聞きたい!!
動画が<i>あまりにも</i>短く、45度すらまともに回っていない。
Genie3でさえせいぜい90度回る程度だ。
実際にはモデルが「できない」部分に注目すべきで、この場合は「まともに回転できない」ということだ。
その場に固定して回すだけの簡単なテストを通過できないなら、もう『world model』とは呼びたくない。
ああもう不満だ。