Emu Video: 単一のDiffusion Modelベースでテキストから高品質な動画を生成
- プロセスを2段階に分離
- まずテキストプロンプトに応じて条件付き画像を生成
- テキストと生成された画像の両方を条件として指定した動画を生成
- このような「Factorized」または分割アプローチにより、動画生成モデルを効率的に学習可能
- 複数のモデルの積み重ねが必要だった従来の手法(例: Make-A-Video では5つのモデル)とは異なり、実装がシンプルで、2つの拡散モデルだけで毎秒16フレーム、512x512、4秒の動画を生成
- 実際に、回答者の96%が品質面で、85%がテキストプロンプトへの忠実度の面で Make-A-Video より好んだ
- また、このモデルはテキストプロンプトに基づいてユーザー提供画像に「アニメーション」を適用し、この点でも従来手法を大きく上回った
Emu Edit: 認識と生成タスクによる精密な画像編集
- 望む画像を作るにはプロンプトを継続的に調整する必要があり、その結果プロンプトエンジニアリングが生まれた
- しかし、精密な制御という点では依然として限界がある
- Emu Edit は多様な画像操作タスクを簡素化し、画像編集における機能性と精度を向上させる
- ローカルおよびグローバル編集、背景の削除と追加、色やジオメトリの変換、検出やセグメンテーションなどの作業を含む命令により、自由形式の編集が可能
- 現在の手法は、多様な編集タスクで過剰に修正したり性能が低下したりすることが多い
- 今日の多くの生成AIモデルとは異なり、Emu Edit は指示に正確に従うため、指示に関係のない入力画像のピクセルはそのまま維持される
- たとえば野球帽に "Aloha!" というテキストを追加する際、帽子自体は変更されるべきではない
- モデルを学習させるため、それぞれ入力画像、実行する作業の説明、目標出力画像を含む1,000万件の合成サンプルからなるデータセットを開発
- その結果、Emu Edit モデルは指示忠実度と画像品質の両面で前例のない編集結果を示した
- さまざまな画像編集タスクに関する定性的・定量的評価の両方で新たな最先端の結果を達成し、既存手法より優れた性能を示した
1件のコメント
Emu Edit はかなり気になりますね。DALLE は何か修正指示をすると、Seed を固定していてもまったく新しく生成してしまうので細かな修正が難しいのですが、ああいう方式で修正できるなら使いやすくなりそうです。