- Character AIが開発した Ovi は、テキストまたは画像入力から 音声と映像を同時に生成 するAIモデル
- Oviは独自構築した 5B規模のオーディオブランチ とWan2.2ベースのビデオブランチを組み合わせ、高品質で同期した視聴覚コンテンツを生成
- モデルは 720×720解像度 で学習されたが、960×960以上の解像度 でも自然な結果を生成し、さまざまなアスペクト比(9:16、16:9など)をサポート
- Gradio UI、ComfyUI統合(WIP)、マルチGPU推論、qint8/fp8量子化 など、多様な実行オプションと効率化機能を提供
- このプロジェクトは テキスト・ビデオ生成(T2V) および 画像・ビデオ生成(I2V) 技術発展の最新事例であり、オーディオ・ビデオ融合生成の新たな標準を提示
Ovi 概要
- Ovi はCharacter AIとYale Universityの研究陣が共同開発した クロスモーダル生成モデル で、テキストまたはテキスト+画像入力から 同期した音声と映像を同時に生成 するシステム
- モデル構造は「Twin Backbone Cross-Modal Fusion」と名付けられており、オーディオとビデオのブランチを並列に学習して融合する方式を採用
- プロジェクトリードはWeimin Wang、共同貢献者はChetwin LowとCalder Katyal
- Veo-3類似モデル として紹介されており、Character AIの社内オーディオデータセットを活用して 5Bパラメータ規模のオーディオブランチ をゼロから事前学習
- 生成される映像は 5秒、24FPS、720×720解像度 が基本で、9:16、16:9、1:1など多様な比率をサポート
主な機能と特徴
- 🎬 Video+Audio Generation: テキストまたは画像入力から音声と映像を同時生成
- 🎵 High-Quality Audio Branch: 独自構築した大規模オーディオデータセットで学習したオーディオブランチを提供
- 📝 Flexible Input: テキスト単独またはテキスト+画像入力の両方をサポート
- ⏱️ 5秒動画生成: 24FPSで5秒の短い動画を生成
- 🎯 高解像度対応: 960×960以上の解像度でも自然な結果を生成可能
- 例として1280×704、1504×608、1344×704など多様な比率の動画を提供
- 🚀 アップスケーリング性能: 学習は720×720で行われたが、高解像度でも時間的・空間的な一貫性を維持
利用可能なプラットフォームとデモ
- Wavespeed.ai でテキスト→ビデオおよび画像→ビデオ生成が可能
- HuggingFace Spaces でもデモを提供
- ComfyUI統合(WIP):
ComfyUI-WanVideoWrapper を通じてOviモデルをワークフローに統合可能
学習と性能
- 学習解像度: 720×720
- 推論時の解像度拡張: 960×960および多様なアスペクト比をサポート
- 時間的一貫性の維持: フレーム間の自然な遷移を実現
- オーディオ・ビデオ同期品質: オーディオガイダンススケールの調整で同期品質を制御可能
実行と構成
- インストール手順
- PyTorch 2.6.0、Flash Attention、requirements.txtの依存関係をインストール
download_weights.py でチェックポイントをダウンロード(T5、VAE、MMAudioを含む)
- GPU VRAMが24GBの場合は
fp8 または qint8 量子化版を使用可能
- 推論構成ファイル:
ovi/configs/inference/inference_fusion.yaml
- 主な設定項目:
num_steps: デノイジング段階数(30〜50)
audio_guidance_scale, video_guidance_scale: オーディオ・ビデオ同期の強度
sp_size: シーケンス並列サイズ(GPU数と同じに設定)
cpu_offload: GPU VRAM節約モード
fp8: 24GB VRAM環境で実行可能
- 推論実行例
- 単一GPU:
python3 inference.py --config-file ...
- マルチGPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
性能とメモリ要件
- 基本モデルの実行には最低32GBのVRAMが必要、fp8モードでは24GBで可能
- FlashAttention-3 を有効化すると処理速度が向上
- シーケンス並列処理 により、4〜8 GPU使用時の処理時間は40〜55秒程度
- CPUオフロード 時はVRAMを節約できるが、処理時間は約20秒増加
Gradio UI 実行
- 簡単なコマンドでGradioベースのインターフェースを実行可能
python3 gradio_app.py
--cpu_offload, --use_image_gen, --qint8, --fp8 オプションで多様な環境をサポート
- I2Vモードでは、最初のフレーム生成用の画像生成モデルが自動で有効化
プロンプト構造と例
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- 特殊タグの使用
...: 音声変換用テキスト
...: BGMおよび効果音の説明
- GPTを活用したプロンプト生成
- 例示CSVをもとに、GPTに特定テーマ(例: 「AIと人間の対決」)でセリフを修正するよう依頼
- 修正したプロンプトをOviに入力して、テーマベースの動画を生成可能
今後の計画(Todo List)
- 研究論文およびデモWebサイトを公開予定
- 11Bモデルチェックポイント および マルチGPU推論コード を公開
- fp8重み、シーケンス並列の効率改善、FSDPシャーディング推論 を実装予定
- 高解像度データのファインチューニング および RLベースの性能向上 を研究中
- 長尺動画生成、参照音声条件、推論速度向上のためのDistilledモデル を開発予定
技術的謝辞と協業
- Wan2.2: ビデオブランチの初期化に使用
- MMAudio: オーディオVAEを再利用
- 貢献者: @rkfg(fp8効率化)、@gluttony-10(qint8量子化)
- 協業提案および問い合わせ: Weimin Wangまで連絡可能
引用情報
プロジェクトメタデータ
- ライセンス: Apache-2.0
- 言語構成: Python 96.3%、CUDA 2.1%、C 1.4%、C++ 0.2%
- GitHub統計: ★955、フォーク92、Issue 20、PR 2
- 開発者: Character AIチーム、Yale University研究陣
1件のコメント
Hacker Newsのコメント
ここ数か月ずっとAI生成ツールを触ってきたが、それぞれのツールが急速に一つへ統合され、ローカルマシンでも使えるようになったのは驚きだ
先週からOviを使ってみたが、本当に面白い。AI生成物はいわばスロットマシンのようなもので、良い入力を入れても結果がひどいことがあるが、何度も回せば使えるものが出てくる
I2VとT2Vでかなり本物のように見えて聞こえる映像を作れた。T2Vはたまに90年代のテレビ画質のように見えるが、それがかえって現実味を感じさせる
Flux SPROを画像ソースとして使うと、かなり写実的な映像になる。私のGPUは5090なので、5秒のクリップを作るのに4〜5分ほどかかる
映像モデルはWan 2.2ベースのようだ
最近はWan関連の動きが活発で、OpenAIやRunwayのような巨大資本のクローズドモデルに対抗する柔軟なオープンモデルが出てきたのはうれしい
Wan 2.5もあるが、公式プロバイダー経由で匿名ルーティングされる。Kling、Veo、Soraのような中継型オプションよりずっと安い
以前NokiaのOviで働いていた。当時のOviはNokia携帯向けのGSuiteのような構想で、公式説明は「Oviはフィンランド語でドア(Door)」だったが、社内ジョークでは「ハンガリー語で幼稚園(Kindergarten)」と呼ばれていた。今回のOviという名前の由来は見つけられなかった
しかしブランド戦略の欠如と失敗したデバイスソフトウェア政策に縛られ、結局は没落した。おそらく2013年ごろに完全終了したと思う。その頃にはもう会社を離れていた
私の耳がAutoTune以前の世代だからか、音声にはいまだに完璧すぎるピッチとコンパンダンディング(companding)の痕跡を感じる
特にInvincibleシリーズのMachine Headというキャラクターの声に似て聞こえる
それでも全体としては素晴らしい仕事だ
プロジェクト自体は興味深いが、生成系オーディオビジュアルコンテンツの実用性はまだよく分からない
今のところ、得られるメリットより面倒な要素のほうが多く見える
このペースなら、数か月以内に高品質なショートフィルムがすべて生成系で作られるようになるかもしれない
これらのプロジェクト同士に関連があるのか気になって、このスレッドとこのスレッドを比較してみた
最近はAIコーディングツールのおかげで、こうしたランディングページの自動生成がはるかに簡単になっている
I2Vの場合、NVIDIA 4070以上のGPUと十分なVRAMがあれば、440x440解像度で1〜2分ほどで使える下書きを得られる
T2Vはまだ学習された解像度付近でしか品質が安定しない。それでもWanの既知の解像度では断続的に良い結果が出る
CUDA 12.8以上、Torch 2.8以上、そしてFlash 2よりSageAttentionを使ったときのほうが品質が目に見えて良くなる
興味深い進展だが、CAIのような会社がこれを手にしたのは残念だ
若く孤独な人たちを相手にAIを利用している