Lightricks LTX-2 - オープンソース初の音声・映像統合生成モデル
(aisparkup.com)📝 TL;DR
- LTX-2 = オープンソースのマルチモーダル動画生成モデルの新たな基準
- 4K+音声をコンシューマー向けハードウェアでリアルタイム生成
- 11月末にモデル重み+コード+ベンチマークを全面公開
- Lightricks制作、arXiv論文公開済み
🔑 Key Highlights
-
オープンソース初の音声・映像同期生成モデル
- Sora 2、Movie Genは商用/非公開、LTX-2は11月末に完全なオープンソースとして公開
- 4K 50fps、最大10秒の映像 + 同期された音声を生成
-
リアルタイムを上回る生成速度
- H100: 768x512解像度、5秒24fpsの映像をわずか2秒で生成
- 既存モデル比で計算コストを50%削減
- コンシューマー向けGPU(RTX 4090など)でも実行可能
-
ハイブリッドDiTアーキテクチャの革新
- Video-VAE: 1:192圧縮率(32x32x8ダウンスケーリング)
- VAEデコーダが最終デノイジングまで実行 → 別途アップサンプリングなしで精細なディテールを維持
- マルチGPU推論スタックでリアルタイム性能を実現
-
精密なクリエイティブ制御
- マルチキーフレームコンディショニング、3Dカメラロジック
- LoRAファインチューニングでブランドスタイル/IPの一貫性を維持
- Fast/Pro/Ultraの3つのモードで速度と品質を調整
-
すぐに使えるエコシステム
- Fal.ai、Replicate、ComfyUIとの統合を完了
- API Playgroundでテスト可能
- 編集ツール、VFXスタック、ゲームエンジンへの直接統合をサポート
まだコメントはありません。