- 最近、動画生成モデルが登場し、驚くべき画質を見せているが、現在の限界は一貫した大規模な動きの生成能力が不足していること
- VideoPoetは、テキスト-to-ビデオ、画像-to-ビデオ、動画スタイリング、動画インペインティングおよびアウトペインティング、動画-to-音声生成など、多様な動画生成タスクを実行できるLLM
- 他のモデルとは異なり、各タスクに強い構成要素へ依存するのではなく、単一のLLM内に各機能を統合
- 画像を動きへ変換し、動画を編集してインペインティングまたはアウトペインティングを実行
- VideoPoetは、動画、画像、音声、テキストのモダリティを学習するために複数のトークナイザーを使い、自己回帰型言語モデルを訓練
- テキスト-to-ビデオでは、動画出力は可変長であり、テキスト内容に応じて多様な動きとスタイルを適用できる
- 画像-to-ビデオでは、入力画像をプロンプトとともに動き付きでアニメーション化
- 動画スタイリングでは、Optical FlowとDepth情報を予測した後、追加の入力テキストとともにVideoPoetへ入力
- VideoPoetは音声も生成でき、これにより単一モデルで動画と音声を生成可能
- 生成評価の結果、平均的に人々はVideoPoetのほうがプロンプトへの追従性が高く、より興味深い動きを生成すると評価
- VideoPoetは、動画内で興味深く高品質な動きを生成するうえで、LLMの競争力を実証
まだコメントはありません。