Seedance 1.0 - ByteDanceのマルチショット動画生成モデル

(seed.bytedance.com)

4 ポイント投稿者 GN⁺ 2025-06-14 | 1件のコメント | WhatsAppで共有

テキストと画像ベースのマルチショット動画生成モデルで、意味理解とプロンプト解釈能力において既存モデルよりより正確で柔軟な性能を示す
1080pの高解像度に加え、滑らかなシーン転換、豊かなディテール、映画的な雰囲気の成果物を提供
精密なファインチューニングと動画特化のRLHF報酬メカニズムにより全体的な性能を向上
テキスト記述や画像をもとに、要求条件を満たす動的で没入感のあるビジュアルコンテンツの生成が可能
効率的なアーキテクチャと新しい学習パラダイムにより、マルチショット生成とテキスト-動画/画像-動画タスクの両方をサポート

Seedance 1.0 の紹介

近年の拡散モデルにおける大きな革新により、動画生成技術は急速に進化している
しかし既存モデルの大半は、指示（プロンプト）の遂行、動きの自然さ、視覚品質の間でバランスを取ることに依然として課題を抱えている
Seedance 1.0は、以下の主要な技術的改善を適用した動画生成ベースのモデルである
- (i) 精密な動画キャプションを付与したマルチソースデータ収集により、さまざまなシナリオで包括的な学習が可能
- (ii) 効率的なアーキテクチャと学習パラダイムにより、マルチショット生成とテキスト→動画、画像→動画タスクを同時にサポート
- (iii) 細かく最適化された後処理: 高度な教師ありファインチューニングと動画特化RLHF、多次元報酬メカニズムにより全体性能を大幅に改善
- (iv) モデル高速化: 多段階蒸留とシステムレベル最適化により推論速度を10倍向上
NVIDIA-L20 GPU基準で41.4秒で5秒の1080p動画生成が可能
最新の動画生成モデルと比較すると、時空間的柔軟性、構造的安定性、複雑な複数状況での指示遂行、マルチショットとストーリーテリングの一貫性に優れている

1件のコメント

GN⁺ 2025-06-14

Hacker Newsの意見

こうした機能が、いつかはあまりに当たり前で陳腐に感じられる未来を楽しみにしている
- 手元のスマホで、友人たちとのグループチャット内で遊び半分に、その場で全24話のフルボイスアニメを作れるレベルになるのではと想像してしまう
- 今でも信じられないほど多くのことができるが、まもなく誰も気にしなくなるだろうという点もまた不思議だ
- どれだけ簡単なプロンプト入力で作った24話シリーズでも、結局は誰も関心を持たないだろうと指摘している
  - AIはコンテンツの価値を高めるのではなく、希少性を壊すことで意味そのものを失わせるのではないかという考えだ
  - Tea. Earl Grey. Hot.のように、ただ機械的に出てくる感じの比喩も添えられている
- こうしてコンテンツ制作が容易になれば、誰が長い時間をかけて動画を視聴するのか疑問に思う
  - 結局は各自が自分専用の生成コンテンツを楽しむのに忙しくなるのではないかという推測だ
- 自分もこの技術をとても楽しみにしている
  - たとえばShadowrun映画のようなものも自作してみたいという期待がある
- 1か月で生み出されるコンテンツ量が、人類史上これまでに作られたすべてのコンテンツの総量を超える見通しだ
  - Disney、Marvel、Star Warsのような大衆メディア一色ではなく、それぞれの関心にぴったり合うロングテールなメディアを享受できる点に期待している
  - エジプトとアトランティスに興味があるなら、両文明が戦うスチームパンクシリーズを、The Wireのようなシリアスな作風で即座に鑑賞できる世界も想像できる
  - 従来なら絶対に制作されなかった企画も実現できる時代になる見込みだ
  - 優れた創作者が現れ、今後はインディー音楽、インディー漫画、インディーゲームのように多様なクリエイターが頭角を現せると見ている
  - 本当の問題は「発見性」になるだろう
  - 結局、年に500枠しかない限られた席にコネで入り込まなければならなかった既存業界の構造が崩れ、それぞれのビジョンを持つ多くの人材が大きな挑戦をできるようになると強調している
  - VivziePop(Vivienne MedranoのWiki)、PsychicPebbles(Zach HadelのWiki)のように、YouTubeから始まって巨大IPへ成長するモデルが未来の標準になる見通しだ
  - 創作業界の革新は単なる2〜10倍ではなく、1000倍近く良くなると予想している
  - 今の映画やドラマの大半は自分の好みに合わないので嫌いだったが、メディアという媒体そのものは好きだったという立場だ
  - これからは自分の好みや関心にぴったり合うコンテンツに出会える世界が開けるという、大きな期待を抱いている
将来はTikTokのアルゴリズムのように、見た瞬間に自分の好みを把握して、その都度新しい動画を作ってくれる形になる見込みだ
- ユーザーがスクロールするたびに好みを学習し、さらに多くの動画を自動生成して見せるシステムになるだろう
- 十分なコンテキストがモデルに入力されれば、その人が反応するコンテンツはあまりに魅力的で、画面から目を離せなくなるほどの中毒性を持つことになるだろう
  - 不気味な想像であると同時に、長期的には避けられないと思っている
- 残念ながら、単にユーザーの好みに従うのではなく、エンゲージメント最大化のためにユーザーの嗜好そのものを操作しようとするのではないかという懸念もある
- 実際には、こうした技術の方向性は人々がソーシャルメディアを使う理由とは少しずれているという意見もある
  - ChatGPTも無限にコメントを生成できるが、それでも私たちはここHacker Newsに来ていることを例に挙げている
- いずれは「ライブモード」という概念で、リアルタイムに、ユーザーの声に合わせて即座に動画を生成する機能も登場すると予想している
  - Netflixにもこうした機能が入るかもしれない
- 広告が嫌いだということも学習して、きちんと反映してくれるのか気になる
サンプル動画の中にはかなり印象的な場面もあるが、一部の場面では不自然な動きが頻繁に見られる
- 学習データがTikTokの中でも特に大げさな部分に偏っているのか、5秒以上ひとつの場面を維持できないような特徴が見える
- 確かに難しい場面はうまく処理しているが、むしろ簡単そうに見える部分でミスが多いという評価だ
  - オープニングのピアノや写真家が使うカメラにはAI textと書かれており、カフェの老人は手がベレー帽を突き抜け、海辺で振り向く少女はフクロウのように首を回す
  - ヨーロッパの都市で自転車に乗る少年の場面では、広場に暗号化された存在が一輪車に乗って木の下に立っているような形で終わる
- ByteDanceはすでに数週間前からModel Arenaで内部的にUnicornという名前でこのモデルをテストしていた
  - すでにGoogle Veo 3より高いスコアを記録している
  - ArtificialAnalysis: Model Arenaランキング
5年後には、すべてのコンテンツがリアルタイム生成される世界が実現しうるという見方だ
- 何かを言えば、すぐに5秒の動画で応答してくれる方式だ
- もはや動画は「固定資産」ではなく、その場で作られて消えていく「エフェメラル」な応答になる
- 動画はアップロードされる受動的なファイルではなく、データストリームの出力物になっていく
- スワイプに代わる未来のUIは音声プロンプトになる可能性が高い
- Seedanceがやっているのは新しいフォーマットの実験というより、ランタイム生成コンテンツシステムの実験だ
- バックエンドではmodel infraをcometで圧縮し、LLMをより安く速く回せるように設定する
- この組み合わせが実現すれば、大きなバッチやキャッシュなしでも大規模にコンテンツ生成を提供できるようになる
- もしこれが本当に定着すれば、フィードはもはやスクロールではなくレンダーループになってしまう
- これはもはや「メディアサービス」ではなく、動画プラットフォームの外見をした低遅延AIモデルホスティングシステムだという評価だ
動画品質は素晴らしいが、音はどこにあるのかという疑問が出ている
- VEO3は映像をうまく作れても、オーディオ側の完成度が大きな差別化要因になっている点に触れている
- 自分は大手動画ストリーミング企業でAIソリューションを扱っている立場だ
  - VEO3の問題は、プロンプト間の一貫性が弱いことだ
  - たとえばキャラクターのリファレンス画像を上げても、「年老いた花嫁が身をかがめる」と「年老いた花嫁がコインを拾う」を別々に生成すると、登場人物が毎回違って見える
  - もちろんVEO3はimage-to-video機能を提供しているが、実際のシーンを作るにはまだかなり不十分だ
  - 時間が経てば進歩するだろうが、現段階では個人的にSeedanceがショット間の一貫性に焦点を当てている点が気に入っている
  - この点がVEO3への圧力となり、該当機能が早く改善されることを期待している
なぜすべてのサンプル動画に大きな丸が出てくるのかという疑問が出ている
Seedanceをどこで使えるのかという質問がある
- Seedance 1.0は2025年6月からDoubaoやJimengなど複数のプラットフォームに統合される予定だ
- この機能はいずれTikTokへ直行しそうだ
  - TikTok自体のプラットフォーム上で膨大な生成コンテンツの洪水が起こり、誰もがクリエイターになりたがる現象をどう収益化するかを探ることになるだろうという指摘だ
  - 今後は「コンテンツを無料で投稿できる」から「AIゲートウェイを通さないと投稿できず、その料金も支払う」方式へとプラットフォーム方針が変わるのではないかという観測だ
動きの多い動画で吐き気やめまいを感じることがあると述べている
- Sora初公開時にも似た経験があったが、Seedanceではやや軽減されている
- Veo 3のデモではこうした症状はなかったが、ほかの人もSeedanceの動きの激しいサンプルで似た感覚を覚えたかと尋ねている
AI生成動画のリアリズムが既存のCGIアニメ映画レベルに近づいたのかという疑問を示している
- 専門家なら今の結果物に明確な欠陥を当然指摘できるだろうと見ている
- ただし、今後は特定区間だけをプロンプトで微修正できるのではないかと期待している
- また、ハリウッドの高予算CGIの1秒あたりのコストと比べて、実際にどれほどの計算資源や費用がかかるのかも気になっている
- 最近のハリウッドで見られる一般的な（アニメではない）CGIですらクオリティが低いことが多いため、期待値はそれほど高くない
  - 実際、CGI結果に変更を適用・管理する過程(change management)もかなり興味深く見える
Old manがそこまで年老いて見えず、個人的には少し不思議だ（自分が年を取ったせいかもしれないという冗談交じりの告白）

Seedance 1.0 - ByteDanceのマルチショット動画生成モデル

Seedance 1.0 の紹介

関連記事

1件のコメント

Hacker Newsの意見