4 ポイント 投稿者 kyujin 2025-08-28 | まだコメントはありません。 | WhatsAppで共有

学習不要(training-free)で、自由に video editing ができるように、手法とコードをすべてオープンソース(open-source)として公開。🌱

  • Video Editing: 入力動画に対して、ユーザーが望む要素を text prompt で追加して動画を生成することを指す。(つまり、入力動画と出力動画の 一貫性 が重要)
  • Training-Free Video Editing: 学習なしで、inference の過程で diffusion モデル内の latent vector を操作し、ユーザーが望む text prompt に沿って動画が生成されるよう誘導する。🐬

最近動画生成分野で注目を集めている WAN2.1-T2V-1.3B モデルをベースに、video-editing ができるようコードを作成。🔮

  • Image Editing で活用されていた training-free methods を WAN2.1 に適用。
    • FlowEdit & FlowAlign

さらに、筆者は WANAlign2.1 🌠 という手法を提案。🛠️

  • Attention map で編集する領域だけを masking 処理し、入力動画との一貫性をさらに向上させた手法。

🌟🌟自由に活用してほしい。興味があればスターもお願いします🌟🌟!!

まだコメントはありません。

まだコメントはありません。