2 ポイント 投稿者 GN⁺ 2025-04-21 | 1件のコメント | WhatsAppで共有
  • 動画生成のための次フレーム予測モデルで、入力フレームコンテキストをパッキングする方法に関する研究
  • FramePackは、GPUメモリレイアウトを最適化してフレーム予測を効率的に実行する方法
  • フレーム重要度に応じてGPUリソースを割り当て、計算複雑度を O(1) に削減
  • ドリフト問題を解決するために、双方向サンプリングを提案
  • 画像から動画への変換において、最初のフレームを重視する反転アンチドリフティングサンプリング手法を強調

動画生成における入力フレームのパッキング

  • 次フレーム予測モデルは、複数の入力フレームを用いて新しいフレームを生成する方式
  • FramePackは入力フレームをGPUメモリレイアウトに合わせてエンコードし、効率的なフレーム生成を可能にする
  • 各フレームはパッチ化カーネルを使ってエンコードされ、重要度に応じてコンテキスト長が調整される
  • たとえば、HunyuanVideoでは 480p フレームが (1, 2, 2) パッチ化カーネルを使うと 1536 トークンになり、(2, 4, 4) パッチ化カーネルを使うと 192 トークンになる

フレーム重要度とスケジューリング

  • 重要なフレームにはより多くのGPUリソースが割り当てられる
  • さまざまな圧縮パターンによって、開始フレームを同じように重要にできる
  • すべてのスケジューリングは O(1) 複雑度を持つ
  • 論文では複数のスケジューリングについて詳細な評価を提供している

ドリフト問題と解決方法

  • ドリフトは、動画が長くなるほど品質低下が発生する問題
  • 誤差累積または露出バイアスとも呼ばれる
  • これを解決するために、因果性を崩して双方向サンプリングを導入
  • 反転アンチドリフティングサンプリングでは、すべての推論で最初のフレームを近似目標とする

画像から動画への変換性能

  • RTX 3060 6GB ノートPCで 13B HY バリアントを使用し、画像-5秒および画像-60秒動画を生成
  • 結果は h264crf18 で圧縮され、GitHub リポジトリに合わせている

1件のコメント

 
GN⁺ 2025-04-21
Hacker Newsのコメント
  • この人は天才だ。彼がControlNetも開発したことを知らない人のために言っておくと、このモデルはコンシューマー向けハードウェアで動作する、初のまともな動画生成モデルだ。ControlNetのポーズ対応も近いうちに期待したい
    • 面白いことに、このモデルは人々に本当に踊ってほしいらしい。インタビューのために座っている人でさえ、座ったまま踊り始める
    • 例はかなり印象的で、これを生成するのに使われたリソースはほとんどごくわずかだ。前世代のコンシューマー向けハードウェアでも推論できそうに見える。5090での推論スループット統計も見てみたい
    • これを空間的にもできるだろうか? 例えば、画像を一度に生成する代わりに、上から下へ生成できるだろうか
    • このモデルは動画の外挿ではなく補間に使えるだろうか
    • 驚きだ。RAMがもっと多いとか、何か別の要因があればさらに速くなるのだろうか? H100やH200ならもっと速度が出せるだろうか
    • このモデルにできる唯一の動きは、踊ることのように見える