Google DeepMind、動画生成モデル Veo 2 を公開

(deepmind.google)

7 ポイント投稿者 GN⁺ 2024-12-17 | 1件のコメント | WhatsAppで共有

Veo 2 は最先端の動画生成モデルで、現実的な動きと最大 4K の高品質出力を提供
多様なスタイルを探求し、幅広いカメラ制御を通じて自分だけのスタイルを見つけられる
品質と制御の再定義
- Veo 2 はシンプルな指示から複雑な指示まで忠実に従い、現実世界の物理法則や多様なビジュアルスタイルを説得力をもってシミュレーションする
- 向上したリアリティと忠実度: ディテール、リアリティ、アーティファクト低減の面で、他の AI 動画モデルより大きく改善
- 高度なモーション機能: 物理法則への理解と詳細な指示に従う能力により、高い精度で動きを表現
- より多くのカメラ制御オプション: さまざまなショットスタイル、角度、動きを正確に解釈して生成
ベンチマーク
- Veo は、人間評価者による他の最上位動画生成モデルとの比較で最先端の結果を達成
- 1003 件のプロンプトと対応する動画を MovieGenBench で評価し、Veo 2 は総合的な選好度とプロンプトを正確に反映する能力で最高性能を示した
制限事項
- Veo 2 は現実的で動的かつ複雑な動画を生成するうえで目覚ましい進歩を見せたが、複雑なシーンや複雑な動きのあるシーンで完全な一貫性を維持することは依然として課題
- こうした領域での性能を今後も継続的に開発・改善していく予定

1件のコメント

GN⁺ 2024-12-17

Hacker Newsの意見

ユーザーが「A pelican riding a bicycle along a coastal path overlooking a harbor」というプロンプトで生成した動画へのフィードバックを共有。4つのバージョンのうち、2つは自転車に乗るペリカン、1つは道路を走るペリカン、1つは自転車の上に座るペリカンで、最後は奇妙なヘルメットをかぶったペリカンだった。Soraより良い結果だった
ユーザー選好でSora Turboに2:1で勝ったのは印象的。Soraと似た制約はあるが、より自然な動きや物理法則をややうまく模倣しているように見える。ブログ記事では、4K解像度まで拡張可能で、長さも数分まで伸ばせると説明している
発表で示されたサンプルと学習データの類似性への疑問を示している。プロンプトの細部が結果にどの程度反映されるのか疑問視している。たとえば、DJの魅力的な存在感や音楽の力についての説明が、動画にどのような影響を与えるのか気にしている
スケートボードの動画は非現実的だが、非常にもっともらしく見える動画もある
ページがiPadのChromeでクラッシュしたと述べている
Googleの大きな発表の後、OpenAIがSoraプレビューを公開してGoogleを圧倒したが、Veo 2はSoraより進歩しているように見える
テレビ局で働く友人が、すでに公共広告プログラムのためにこうしたツールを使っている
GoogleはYoutubeへのアクセス性を通じて、テキスト/画像から動画への変換を支配する可能性があると考えている
Veo 2のサンプル長が8秒、VideoGenのサンプル長が10秒、他モデルのサンプル長が5秒である点に混乱を示している。Veo 2の良い結果は、より長い動画を好む評価者によるものではないかと疑問を持っている
GoogleのAI部門を、OpenAIの派手なヨットに対する巨大な原子力潜水艦になぞらえている。GoogleがAGIに近づいている可能性を示唆し、MicrosoftやAmazonの状況にも触れている

Google DeepMind、動画生成モデル Veo 2 を公開

関連記事

1件のコメント

Hacker Newsの意見