Goku - ByteDanceのFlowベース動画生成モデル

xguru · 2025-02-14T10:02:01+09:00

Gokuは「Rectified Flow Transformer」をベースにした新しい画像・動画生成モデル群で、業界最高水準の性能を目指している高品質なビジュアル生成技術のために、「データ選別、モデル設計、フロー定式化」など多様な最適化を適用主な特徴高品質データの選別による高精度な画像・動画生成 Rectified Flow手法を活用して画像トークンと動画トークン間の相互作用を強化画像生成および動画生成で優れた性能を提供対応する生成タスクテキスト → 動画生成画像 → 動画生成テキスト → 画像生成性能ベンチマーク: 主要ベンチマークで高い性能を記録 0.76 (GenEval - テキスト → 画像生成) 83.65 (DPG-Bench - テキスト → 画像生成) 84.85 (VBench - テキスト → 動画生成) Goku-T2VはVBench性能比較で84.85点を記録し、2024年10月7日時点で2位を獲得複数の商用テキスト動画モデルを上回る成果 (AnimateDiff-V2, OpenSora, Gen-3, Kling など)

(github.com/Saiyan-World)

6 ポイント投稿者 xguru 2025-02-14 | 2件のコメント | WhatsAppで共有

Gokuは「Rectified Flow Transformer」をベースにした新しい画像・動画生成モデル群で、業界最高水準の性能を目指している
高品質なビジュアル生成技術のために、「データ選別、モデル設計、フロー定式化」など多様な最適化を適用
主な特徴
- 高品質データの選別による高精度な画像・動画生成
- Rectified Flow手法を活用して画像トークンと動画トークン間の相互作用を強化
- 画像生成および動画生成で優れた性能を提供
対応する生成タスク
- テキスト → 動画生成
- 画像 → 動画生成
- テキスト → 画像生成
性能ベンチマーク: 主要ベンチマークで高い性能を記録
- 0.76 (GenEval - テキスト → 画像生成)
- 83.65 (DPG-Bench - テキスト → 画像生成)
- 84.85 (VBench - テキスト → 動画生成)
Goku-T2VはVBench性能比較で84.85点を記録し、2024年10月7日時点で2位を獲得
- 複数の商用テキスト動画モデルを上回る成果 (AnimateDiff-V2, OpenSora, Gen-3, Kling など)

2件のコメント

kimhj 2025-02-14

最近、ByteDanceが関連技術の論文を大量に発表しているので……近いうちにTikTokにも適用されるのではないかと思います。

xguru 2025-02-14

Goku+: Video Ads Foundation Models

ここの下部にある実際の適用事例のほうがさらに面白いです。

マーケティング向けのアバターを作り出したり、製品画像から動画クリップを生成したりもします。
さらにそれを通じて人と製品を一体に合成し、商品紹介動画までまるごと作り上げます。
そのため、食べ物を食べたり、服を着て歩いたり、化粧したり、シャンプーしたりする動画まで次々に作れてしまいます。
なので、中国のソーシャルコマースに特化した作例なのではないかと思います。

Goku - ByteDanceのFlowベース動画生成モデル

関連記事

2件のコメント