Ovi - オーディオ・ビデオ生成のためのツインバックボーン・クロスモーダル融合

(github.com/character-ai)

1 ポイント投稿者 GN⁺ 2025-10-24 | 1件のコメント | WhatsAppで共有

Character AIが開発した Ovi は、テキストまたは画像入力から 音声と映像を同時に生成 するAIモデル
Oviは独自構築した 5B規模のオーディオブランチ とWan2.2ベースのビデオブランチを組み合わせ、高品質で同期した視聴覚コンテンツを生成
モデルは 720×720解像度 で学習されたが、960×960以上の解像度 でも自然な結果を生成し、さまざまなアスペクト比（9:16、16:9など）をサポート
Gradio UI、ComfyUI統合（WIP）、マルチGPU推論、qint8/fp8量子化 など、多様な実行オプションと効率化機能を提供
このプロジェクトは テキスト・ビデオ生成（T2V） および 画像・ビデオ生成（I2V） 技術発展の最新事例であり、オーディオ・ビデオ融合生成の新たな標準を提示

Ovi 概要

Ovi はCharacter AIとYale Universityの研究陣が共同開発した クロスモーダル生成モデル で、テキストまたはテキスト+画像入力から 同期した音声と映像を同時に生成 するシステム
- モデル構造は「Twin Backbone Cross-Modal Fusion」と名付けられており、オーディオとビデオのブランチを並列に学習して融合する方式を採用
- プロジェクトリードはWeimin Wang、共同貢献者はChetwin LowとCalder Katyal
Veo-3類似モデル として紹介されており、Character AIの社内オーディオデータセットを活用して 5Bパラメータ規模のオーディオブランチ をゼロから事前学習
生成される映像は 5秒、24FPS、720×720解像度 が基本で、9:16、16:9、1:1など多様な比率をサポート

主な機能と特徴

🎬 Video+Audio Generation: テキストまたは画像入力から音声と映像を同時生成
🎵 High-Quality Audio Branch: 独自構築した大規模オーディオデータセットで学習したオーディオブランチを提供
📝 Flexible Input: テキスト単独またはテキスト+画像入力の両方をサポート
⏱️ 5秒動画生成: 24FPSで5秒の短い動画を生成
🎯 高解像度対応: 960×960以上の解像度でも自然な結果を生成可能
- 例として1280×704、1504×608、1344×704など多様な比率の動画を提供
🚀 アップスケーリング性能: 学習は720×720で行われたが、高解像度でも時間的・空間的な一貫性を維持

利用可能なプラットフォームとデモ

Wavespeed.ai でテキスト→ビデオおよび画像→ビデオ生成が可能
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
HuggingFace Spaces でもデモを提供
- https://huggingface.co/spaces/akhaliq/Ovi
ComfyUI統合（WIP）: ComfyUI-WanVideoWrapper を通じてOviモデルをワークフローに統合可能

学習と性能

学習解像度: 720×720
推論時の解像度拡張: 960×960および多様なアスペクト比をサポート
時間的一貫性の維持: フレーム間の自然な遷移を実現
オーディオ・ビデオ同期品質: オーディオガイダンススケールの調整で同期品質を制御可能

実行と構成

インストール手順
- PyTorch 2.6.0、Flash Attention、requirements.txtの依存関係をインストール
- download_weights.py でチェックポイントをダウンロード（T5、VAE、MMAudioを含む）
- GPU VRAMが24GBの場合は fp8 または qint8 量子化版を使用可能
推論構成ファイル: ovi/configs/inference/inference_fusion.yaml
- 主な設定項目:
  - num_steps: デノイジング段階数（30〜50）
  - audio_guidance_scale, video_guidance_scale: オーディオ・ビデオ同期の強度
  - sp_size: シーケンス並列サイズ（GPU数と同じに設定）
  - cpu_offload: GPU VRAM節約モード
  - fp8: 24GB VRAM環境で実行可能
推論実行例
- 単一GPU: python3 inference.py --config-file ...
- マルチGPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

性能とメモリ要件

基本モデルの実行には最低32GBのVRAMが必要、fp8モードでは24GBで可能
FlashAttention-3 を有効化すると処理速度が向上
シーケンス並列処理 により、4〜8 GPU使用時の処理時間は40〜55秒程度
CPUオフロード 時はVRAMを節約できるが、処理時間は約20秒増加

Gradio UI 実行

簡単なコマンドでGradioベースのインターフェースを実行可能
- python3 gradio_app.py
- --cpu_offload, --use_image_gen, --qint8, --fp8 オプションで多様な環境をサポート
I2Vモードでは、最初のフレーム生成用の画像生成モデルが自動で有効化

プロンプト構造と例

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
特殊タグの使用
- ...: 音声変換用テキスト
- ...: BGMおよび効果音の説明
GPTを活用したプロンプト生成
- 例示CSVをもとに、GPTに特定テーマ（例: 「AIと人間の対決」）でセリフを修正するよう依頼
- 修正したプロンプトをOviに入力して、テーマベースの動画を生成可能

今後の計画（Todo List）

研究論文およびデモWebサイトを公開予定
11Bモデルチェックポイント および マルチGPU推論コード を公開
fp8重み、シーケンス並列の効率改善、FSDPシャーディング推論 を実装予定
高解像度データのファインチューニング および RLベースの性能向上 を研究中
長尺動画生成、参照音声条件、推論速度向上のためのDistilledモデル を開発予定

技術的謝辞と協業

Wan2.2: ビデオブランチの初期化に使用
MMAudio: オーディオVAEを再利用
貢献者: @rkfg（fp8効率化）、@gluttony-10（qint8量子化）
協業提案および問い合わせ: Weimin Wangまで連絡可能

引用情報

論文: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
BibTeXを提供、研究利用時の引用を推奨

プロジェクトメタデータ

ライセンス: Apache-2.0
言語構成: Python 96.3%、CUDA 2.1%、C 1.4%、C++ 0.2%
GitHub統計: ★955、フォーク92、Issue 20、PR 2
開発者: Character AIチーム、Yale University研究陣

1件のコメント

GN⁺ 2025-10-24

Hacker Newsのコメント

ここ数か月ずっとAI生成ツールを触ってきたが、それぞれのツールが急速に一つへ統合され、ローカルマシンでも使えるようになったのは驚きだ
先週からOviを使ってみたが、本当に面白い。AI生成物はいわばスロットマシンのようなもので、良い入力を入れても結果がひどいことがあるが、何度も回せば使えるものが出てくる
I2VとT2Vでかなり本物のように見えて聞こえる映像を作れた。T2Vはたまに90年代のテレビ画質のように見えるが、それがかえって現実味を感じさせる
Flux SPROを画像ソースとして使うと、かなり写実的な映像になる。私のGPUは5090なので、5秒のクリップを作るのに4〜5分ほどかかる
映像モデルはWan 2.2ベースのようだ
最近はWan関連の動きが活発で、OpenAIやRunwayのような巨大資本のクローズドモデルに対抗する柔軟なオープンモデルが出てきたのはうれしい
- VeniceAIが提供するプライバシー重視のオープンソース動画モデルが主力だ。Oviは画像→動画、Wan 2.1は画像→動画、Wan 2.2はテキスト→動画をサポートしている
  Wan 2.5もあるが、公式プロバイダー経由で匿名ルーティングされる。Kling、Veo、Soraのような中継型オプションよりずっと安い
- 関連する議論はWan – Open-source alternative to VEO 3のスレッドでも扱われていた
- そしてGoogleもこれに関わっている
以前NokiaのOviで働いていた。当時のOviはNokia携帯向けのGSuiteのような構想で、公式説明は「Oviはフィンランド語でドア（Door）」だったが、社内ジョークでは「ハンガリー語で幼稚園（Kindergarten）」と呼ばれていた。今回のOviという名前の由来は見つけられなかった
- 私もOvi関連プロジェクトで働いていた。ヘルシンキ本社での初期会議で、役員たちがGoogleを競争相手に据えると言っていたのを聞いたが、かなり大胆な試みだった
  しかしブランド戦略の欠如と失敗したデバイスソフトウェア政策に縛られ、結局は没落した。おそらく2013年ごろに完全終了したと思う。その頃にはもう会社を離れていた
私の耳がAutoTune以前の世代だからか、音声にはいまだに完璧すぎるピッチとコンパンダンディング（companding）の痕跡を感じる
特にInvincibleシリーズのMachine Headというキャラクターの声に似て聞こえる
それでも全体としては素晴らしい仕事だ
プロジェクト自体は興味深いが、生成系オーディオビジュアルコンテンツの実用性はまだよく分からない
今のところ、得られるメリットより面倒な要素のほうが多く見える
このペースなら、数か月以内に高品質なショートフィルムがすべて生成系で作られるようになるかもしれない
- しかしその分、ディープフェイクの悪用で個人の人生が壊される事例も出てきそうだ
- むしろ、友人たちと集まって各自でプロンプトを書き、それをつなぎ合わせた映画を一緒に観るプロンプトパーティーのような未来が来るかもしれない。想像するだけで笑える
- それでもショートフィルムより先に長編映画が出る可能性のほうが高いと思う。短い映像ほど完成度を上げるのが難しいからだ
これらのプロジェクト同士に関連があるのか気になって、このスレッドとこのスレッドを比較してみた
- 新しいオープンウェイトモデルが出ると、日和見主義者たちがその名前でドメインを登録し、SEOで金を稼ごうとする
  最近はAIコーディングツールのおかげで、こうしたランディングページの自動生成がはるかに簡単になっている
I2Vの場合、NVIDIA 4070以上のGPUと十分なVRAMがあれば、440x440解像度で1〜2分ほどで使える下書きを得られる
T2Vはまだ学習された解像度付近でしか品質が安定しない。それでもWanの既知の解像度では断続的に良い結果が出る
CUDA 12.8以上、Torch 2.8以上、そしてFlash 2よりSageAttentionを使ったときのほうが品質が目に見えて良くなる
興味深い進展だが、CAIのような会社がこれを手にしたのは残念だ
若く孤独な人たちを相手にAIを利用している

Ovi - オーディオ・ビデオ生成のためのツインバックボーン・クロスモーダル融合

Ovi 概要

主な機能と特徴

利用可能なプラットフォームとデモ

学習と性能

実行と構成

性能とメモリ要件

Gradio UI 実行

プロンプト構造と例

今後の計画（Todo List）

技術的謝辞と協業

引用情報

プロジェクトメタデータ

関連記事

1件のコメント

Hacker Newsのコメント