1 ポイント 投稿者 GN⁺ 2025-10-24 | 1件のコメント | WhatsAppで共有
  • Character AIが開発した Ovi は、テキストまたは画像入力から 音声と映像を同時に生成 するAIモデル
  • Oviは独自構築した 5B規模のオーディオブランチ とWan2.2ベースのビデオブランチを組み合わせ、高品質で同期した視聴覚コンテンツを生成
  • モデルは 720×720解像度 で学習されたが、960×960以上の解像度 でも自然な結果を生成し、さまざまなアスペクト比(9:16、16:9など)をサポート
  • Gradio UIComfyUI統合(WIP)マルチGPU推論qint8/fp8量子化 など、多様な実行オプションと効率化機能を提供
  • このプロジェクトは テキスト・ビデオ生成(T2V) および 画像・ビデオ生成(I2V) 技術発展の最新事例であり、オーディオ・ビデオ融合生成の新たな標準を提示

Ovi 概要

  • Ovi はCharacter AIとYale Universityの研究陣が共同開発した クロスモーダル生成モデル で、テキストまたはテキスト+画像入力から 同期した音声と映像を同時に生成 するシステム
    • モデル構造は「Twin Backbone Cross-Modal Fusion」と名付けられており、オーディオとビデオのブランチを並列に学習して融合する方式を採用
    • プロジェクトリードはWeimin Wang、共同貢献者はChetwin LowとCalder Katyal
  • Veo-3類似モデル として紹介されており、Character AIの社内オーディオデータセットを活用して 5Bパラメータ規模のオーディオブランチ をゼロから事前学習
  • 生成される映像は 5秒、24FPS、720×720解像度 が基本で、9:16、16:9、1:1など多様な比率をサポート

主な機能と特徴

  • 🎬 Video+Audio Generation: テキストまたは画像入力から音声と映像を同時生成
  • 🎵 High-Quality Audio Branch: 独自構築した大規模オーディオデータセットで学習したオーディオブランチを提供
  • 📝 Flexible Input: テキスト単独またはテキスト+画像入力の両方をサポート
  • ⏱️ 5秒動画生成: 24FPSで5秒の短い動画を生成
  • 🎯 高解像度対応: 960×960以上の解像度でも自然な結果を生成可能
    • 例として1280×704、1504×608、1344×704など多様な比率の動画を提供
  • 🚀 アップスケーリング性能: 学習は720×720で行われたが、高解像度でも時間的・空間的な一貫性を維持

利用可能なプラットフォームとデモ

学習と性能

  • 学習解像度: 720×720
  • 推論時の解像度拡張: 960×960および多様なアスペクト比をサポート
  • 時間的一貫性の維持: フレーム間の自然な遷移を実現
  • オーディオ・ビデオ同期品質: オーディオガイダンススケールの調整で同期品質を制御可能

実行と構成

  • インストール手順
    • PyTorch 2.6.0、Flash Attention、requirements.txtの依存関係をインストール
    • download_weights.py でチェックポイントをダウンロード(T5、VAE、MMAudioを含む)
    • GPU VRAMが24GBの場合は fp8 または qint8 量子化版を使用可能
  • 推論構成ファイル: ovi/configs/inference/inference_fusion.yaml
    • 主な設定項目:
      • num_steps: デノイジング段階数(30〜50)
      • audio_guidance_scale, video_guidance_scale: オーディオ・ビデオ同期の強度
      • sp_size: シーケンス並列サイズ(GPU数と同じに設定)
      • cpu_offload: GPU VRAM節約モード
      • fp8: 24GB VRAM環境で実行可能
  • 推論実行例
    • 単一GPU: python3 inference.py --config-file ...
    • マルチGPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

性能とメモリ要件

  • 基本モデルの実行には最低32GBのVRAMが必要、fp8モードでは24GBで可能
  • FlashAttention-3 を有効化すると処理速度が向上
  • シーケンス並列処理 により、4〜8 GPU使用時の処理時間は40〜55秒程度
  • CPUオフロード 時はVRAMを節約できるが、処理時間は約20秒増加

Gradio UI 実行

  • 簡単なコマンドでGradioベースのインターフェースを実行可能
    • python3 gradio_app.py
    • --cpu_offload, --use_image_gen, --qint8, --fp8 オプションで多様な環境をサポート
  • I2Vモードでは、最初のフレーム生成用の画像生成モデルが自動で有効化

プロンプト構造と例

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • 特殊タグの使用
    • ...: 音声変換用テキスト
    • ...: BGMおよび効果音の説明
  • GPTを活用したプロンプト生成
    • 例示CSVをもとに、GPTに特定テーマ(例: 「AIと人間の対決」)でセリフを修正するよう依頼
    • 修正したプロンプトをOviに入力して、テーマベースの動画を生成可能

今後の計画(Todo List)

  • 研究論文およびデモWebサイトを公開予定
  • 11Bモデルチェックポイント および マルチGPU推論コード を公開
  • fp8重みシーケンス並列の効率改善FSDPシャーディング推論 を実装予定
  • 高解像度データのファインチューニング および RLベースの性能向上 を研究中
  • 長尺動画生成参照音声条件推論速度向上のためのDistilledモデル を開発予定

技術的謝辞と協業

  • Wan2.2: ビデオブランチの初期化に使用
  • MMAudio: オーディオVAEを再利用
  • 貢献者: @rkfg(fp8効率化)、@gluttony-10(qint8量子化)
  • 協業提案および問い合わせ: Weimin Wangまで連絡可能

引用情報

  • 論文: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • BibTeXを提供、研究利用時の引用を推奨

プロジェクトメタデータ

  • ライセンス: Apache-2.0
  • 言語構成: Python 96.3%、CUDA 2.1%、C 1.4%、C++ 0.2%
  • GitHub統計: ★955、フォーク92、Issue 20、PR 2
  • 開発者: Character AIチーム、Yale University研究陣

1件のコメント

 
GN⁺ 2025-10-24
Hacker Newsのコメント
  • ここ数か月ずっとAI生成ツールを触ってきたが、それぞれのツールが急速に一つへ統合され、ローカルマシンでも使えるようになったのは驚きだ
    先週からOviを使ってみたが、本当に面白い。AI生成物はいわばスロットマシンのようなもので、良い入力を入れても結果がひどいことがあるが、何度も回せば使えるものが出てくる
    I2VとT2Vでかなり本物のように見えて聞こえる映像を作れた。T2Vはたまに90年代のテレビ画質のように見えるが、それがかえって現実味を感じさせる
    Flux SPROを画像ソースとして使うと、かなり写実的な映像になる。私のGPUは5090なので、5秒のクリップを作るのに4〜5分ほどかかる

  • 映像モデルはWan 2.2ベースのようだ
    最近はWan関連の動きが活発で、OpenAIやRunwayのような巨大資本のクローズドモデルに対抗する柔軟なオープンモデルが出てきたのはうれしい

    • VeniceAIが提供するプライバシー重視のオープンソース動画モデルが主力だ。Oviは画像→動画、Wan 2.1は画像→動画、Wan 2.2はテキスト→動画をサポートしている
      Wan 2.5もあるが、公式プロバイダー経由で匿名ルーティングされる。Kling、Veo、Soraのような中継型オプションよりずっと安い
    • 関連する議論はWan – Open-source alternative to VEO 3のスレッドでも扱われていた
    • そしてGoogleもこれに関わっている
  • 以前NokiaのOviで働いていた。当時のOviはNokia携帯向けのGSuiteのような構想で、公式説明は「Oviはフィンランド語でドア(Door)」だったが、社内ジョークでは「ハンガリー語で幼稚園(Kindergarten)」と呼ばれていた。今回のOviという名前の由来は見つけられなかった

    • 私もOvi関連プロジェクトで働いていた。ヘルシンキ本社での初期会議で、役員たちがGoogleを競争相手に据えると言っていたのを聞いたが、かなり大胆な試みだった
      しかしブランド戦略の欠如と失敗したデバイスソフトウェア政策に縛られ、結局は没落した。おそらく2013年ごろに完全終了したと思う。その頃にはもう会社を離れていた
  • 私の耳がAutoTune以前の世代だからか、音声にはいまだに完璧すぎるピッチとコンパンダンディング(companding)の痕跡を感じる
    特にInvincibleシリーズのMachine Headというキャラクターの声に似て聞こえる
    それでも全体としては素晴らしい仕事だ

  • プロジェクト自体は興味深いが、生成系オーディオビジュアルコンテンツの実用性はまだよく分からない
    今のところ、得られるメリットより面倒な要素のほうが多く見える

  • このペースなら、数か月以内に高品質なショートフィルムがすべて生成系で作られるようになるかもしれない

    • しかしその分、ディープフェイクの悪用で個人の人生が壊される事例も出てきそうだ
    • むしろ、友人たちと集まって各自でプロンプトを書き、それをつなぎ合わせた映画を一緒に観るプロンプトパーティーのような未来が来るかもしれない。想像するだけで笑える
    • それでもショートフィルムより先に長編映画が出る可能性のほうが高いと思う。短い映像ほど完成度を上げるのが難しいからだ
  • これらのプロジェクト同士に関連があるのか気になって、このスレッドこのスレッドを比較してみた

    • 新しいオープンウェイトモデルが出ると、日和見主義者たちがその名前でドメインを登録し、SEOで金を稼ごうとする
      最近はAIコーディングツールのおかげで、こうしたランディングページの自動生成がはるかに簡単になっている
  • I2Vの場合、NVIDIA 4070以上のGPUと十分なVRAMがあれば、440x440解像度で1〜2分ほどで使える下書きを得られる
    T2Vはまだ学習された解像度付近でしか品質が安定しない。それでもWanの既知の解像度では断続的に良い結果が出る
    CUDA 12.8以上、Torch 2.8以上、そしてFlash 2よりSageAttentionを使ったときのほうが品質が目に見えて良くなる

  • 興味深い進展だが、CAIのような会社がこれを手にしたのは残念だ
    若く孤独な人たちを相手にAIを利用している