Goku - ByteDanceのFlowベース動画生成モデル
(github.com/Saiyan-World)- Gokuは「Rectified Flow Transformer」をベースにした新しい画像・動画生成モデル群で、業界最高水準の性能を目指している
- 高品質なビジュアル生成技術のために、「データ選別、モデル設計、フロー定式化」など多様な最適化を適用
- 主な特徴
- 高品質データの選別による高精度な画像・動画生成
- Rectified Flow手法を活用して画像トークンと動画トークン間の相互作用を強化
- 画像生成および動画生成で優れた性能を提供
- 対応する生成タスク
- テキスト → 動画生成
- 画像 → 動画生成
- テキスト → 画像生成
- 性能ベンチマーク: 主要ベンチマークで高い性能を記録
- 0.76 (GenEval - テキスト → 画像生成)
- 83.65 (DPG-Bench - テキスト → 画像生成)
- 84.85 (VBench - テキスト → 動画生成)
- Goku-T2VはVBench性能比較で84.85点を記録し、2024年10月7日時点で2位を獲得
- 複数の商用テキスト動画モデルを上回る成果 (AnimateDiff-V2, OpenSora, Gen-3, Kling など)
2件のコメント
最近、ByteDanceが関連技術の論文を大量に発表しているので……近いうちにTikTokにも適用されるのではないかと思います。
Goku+: Video Ads Foundation Models
ここの下部にある実際の適用事例のほうがさらに面白いです。
マーケティング向けのアバターを作り出したり、製品画像から動画クリップを生成したりもします。
さらにそれを通じて人と製品を一体に合成し、商品紹介動画までまるごと作り上げます。
そのため、食べ物を食べたり、服を着て歩いたり、化粧したり、シャンプーしたりする動画まで次々に作れてしまいます。
なので、中国のソーシャルコマースに特化した作例なのではないかと思います。