- 動画生成のための次フレーム予測モデルで、入力フレームコンテキストをパッキングする方法に関する研究
- FramePackは、GPUメモリレイアウトを最適化してフレーム予測を効率的に実行する方法
- フレーム重要度に応じてGPUリソースを割り当て、計算複雑度を O(1) に削減
- ドリフト問題を解決するために、双方向サンプリングを提案
- 画像から動画への変換において、最初のフレームを重視する反転アンチドリフティングサンプリング手法を強調
動画生成における入力フレームのパッキング
- 次フレーム予測モデルは、複数の入力フレームを用いて新しいフレームを生成する方式
- FramePackは入力フレームをGPUメモリレイアウトに合わせてエンコードし、効率的なフレーム生成を可能にする
- 各フレームはパッチ化カーネルを使ってエンコードされ、重要度に応じてコンテキスト長が調整される
- たとえば、HunyuanVideoでは 480p フレームが (1, 2, 2) パッチ化カーネルを使うと 1536 トークンになり、(2, 4, 4) パッチ化カーネルを使うと 192 トークンになる
フレーム重要度とスケジューリング
- 重要なフレームにはより多くのGPUリソースが割り当てられる
- さまざまな圧縮パターンによって、開始フレームを同じように重要にできる
- すべてのスケジューリングは O(1) 複雑度を持つ
- 論文では複数のスケジューリングについて詳細な評価を提供している
ドリフト問題と解決方法
- ドリフトは、動画が長くなるほど品質低下が発生する問題
- 誤差累積または露出バイアスとも呼ばれる
- これを解決するために、因果性を崩して双方向サンプリングを導入
- 反転アンチドリフティングサンプリングでは、すべての推論で最初のフレームを近似目標とする
画像から動画への変換性能
- RTX 3060 6GB ノートPCで 13B HY バリアントを使用し、画像-5秒および画像-60秒動画を生成
- 結果は h264crf18 で圧縮され、GitHub リポジトリに合わせている
1件のコメント
Hacker Newsのコメント