Lightricks LTX-2 - オープンソース初の音声・映像統合生成モデル

davespark · 2025-10-26T14:15:16+09:00

📝 TL;DR LTX-2 = オープンソースのマルチモーダル動画生成モデルの新たな基準 4K+音声をコンシューマー向けハードウェアでリアルタイム生成 11月末にモデル重み+コード+ベンチマークを全面公開 Lightricks制作、arXiv論文公開済み 🔑 Key Highlights オープンソース初の音声・映像同期生成モデル Sora 2、Movie Genは商用/非公開、LTX-2は11月末に完全なオープンソースとして公開 4K 50fps、最大10秒の映像 + 同期された音声を生成リアルタイムを上回る生成速度 H100: 768x512解像度、5秒24fpsの映像をわずか2秒で生成既存モデル比で計算コストを50%削減コンシューマー向けGPU（RTX 4090など）でも実行可能ハイブリッドDiTアーキテクチャの革新 Video-VAE: 1:192圧縮率（32x32x8ダウンスケーリング） VAEデコーダが最終デノイジングまで実行 → 別途アップサンプリングなしで精細なディテールを維持マルチGPU推論スタックでリアルタイム性能を実現精密なクリエイティブ制御マルチキーフレームコンディショニング、3Dカメラロジック LoRAファインチューニングでブランドスタイル/IPの一貫性を維持 Fast/Pro/Ultraの3つのモードで速度と品質を調整すぐに使えるエコシステム Fal.ai、Replicate、ComfyUIとの統合を完了 API Playgroundでテスト可能編集ツール、VFXスタック、ゲームエンジンへの直接統合をサポート

(aisparkup.com)

5 ポイント投稿者 davespark 2025-10-26 | まだコメントはありません。 | WhatsAppで共有

📝 TL;DR

LTX-2 = オープンソースのマルチモーダル動画生成モデルの新たな基準
4K+音声をコンシューマー向けハードウェアでリアルタイム生成
11月末にモデル重み+コード+ベンチマークを全面公開
Lightricks制作、arXiv論文公開済み

🔑 Key Highlights

オープンソース初の音声・映像同期生成モデル
- Sora 2、Movie Genは商用/非公開、LTX-2は11月末に完全なオープンソースとして公開
- 4K 50fps、最大10秒の映像 + 同期された音声を生成
リアルタイムを上回る生成速度
- H100: 768x512解像度、5秒24fpsの映像をわずか2秒で生成
- 既存モデル比で計算コストを50%削減
- コンシューマー向けGPU（RTX 4090など）でも実行可能
ハイブリッドDiTアーキテクチャの革新
- Video-VAE: 1:192圧縮率（32x32x8ダウンスケーリング）
- VAEデコーダが最終デノイジングまで実行 → 別途アップサンプリングなしで精細なディテールを維持
- マルチGPU推論スタックでリアルタイム性能を実現
精密なクリエイティブ制御
- マルチキーフレームコンディショニング、3Dカメラロジック
- LoRAファインチューニングでブランドスタイル/IPの一貫性を維持
- Fast/Pro/Ultraの3つのモードで速度と品質を調整
すぐに使えるエコシステム
- Fal.ai、Replicate、ComfyUIとの統合を完了
- API Playgroundでテスト可能
- 編集ツール、VFXスタック、ゲームエンジンへの直接統合をサポート

Lightricks LTX-2 - オープンソース初の音声・映像統合生成モデル

関連記事

まだコメントはありません。