6 ポイント 投稿者 xguru 2025-02-14 | 2件のコメント | WhatsAppで共有
  • Gokuは「Rectified Flow Transformer」をベースにした新しい画像・動画生成モデル群で、業界最高水準の性能を目指している
  • 高品質なビジュアル生成技術のために、「データ選別、モデル設計、フロー定式化」など多様な最適化を適用
  • 主な特徴
    • 高品質データの選別による高精度な画像・動画生成
    • Rectified Flow手法を活用して画像トークンと動画トークン間の相互作用を強化
    • 画像生成および動画生成で優れた性能を提供
  • 対応する生成タスク
    • テキスト → 動画生成
    • 画像 → 動画生成
    • テキスト → 画像生成
  • 性能ベンチマーク: 主要ベンチマークで高い性能を記録
    • 0.76 (GenEval - テキスト → 画像生成)
    • 83.65 (DPG-Bench - テキスト → 画像生成)
    • 84.85 (VBench - テキスト → 動画生成)
  • Goku-T2VはVBench性能比較で84.85点を記録し、2024年10月7日時点で2位を獲得
    • 複数の商用テキスト動画モデルを上回る成果 (AnimateDiff-V2, OpenSora, Gen-3, Kling など)

2件のコメント

 
kimhj 2025-02-14

最近、ByteDanceが関連技術の論文を大量に発表しているので……近いうちにTikTokにも適用されるのではないかと思います。

 
xguru 2025-02-14

Goku+: Video Ads Foundation Models

ここの下部にある実際の適用事例のほうがさらに面白いです。

マーケティング向けのアバターを作り出したり、製品画像から動画クリップを生成したりもします。
さらにそれを通じて人と製品を一体に合成し、商品紹介動画までまるごと作り上げます。
そのため、食べ物を食べたり、服を着て歩いたり、化粧したり、シャンプーしたりする動画まで次々に作れてしまいます。
なので、中国のソーシャルコマースに特化した作例なのではないかと思います。