Google、Veo 3とImagen 4、そして映画制作のための新ツールFlowを発表
(blog.google)- Google DeepMindがVeo 3、Imagen 4、Flowを発表し、動画・画像・映画制作ツールを革新的に拡張
- Veo 3は音声付き動画生成、現実の物理法則の反映、リップシンクなどの性能を提供
- Imagen 4は精緻なディテール表現とタイポグラフィ処理能力の向上により、制作物の出力に有利
- Flowはさまざまなモデルを統合し、自然言語ベースの映画制作を可能にする新しい創作ツール
- すべての生成コンテンツにはSynthIDウォーターマークが挿入され、検出ツールもあわせて公開されて透明性を強化
新しい生成メディアモデルとツールで創造力を発揮しましょう
- Googleは最新の生成メディアモデルであるVeo 3、Imagen 4、そして新しい映画制作ツールFlowを発表
- これらのモデルは画像、動画、音楽を生成し、クリエイターが思い描く世界の実現を支援
- Google DeepMindは映像制作者、音楽家、アーティストと協力してツールを共同設計し、責任あるAI活用を重視
Veo 3: 音声を含む高度な動画生成
- Veo 3はVeo 2より向上した品質の動画を生成し、初めて環境音やセリフなどの音声を含む動画生成が可能
- テキストまたは画像ベースのプロンプトを通じて現実的な物理ベースの映像制作が可能で、リップシンクも正確
- GeminiアプリとFlow、Vertex AIを通じて米国でUltraプランのユーザーに提供中
Veo 2: クリエイターのフィードバックに基づく機能追加
-
Veo 2にはクリエイターからのフィードバックをもとに、次のような機能が追加:
- リファレンスベースの動画生成: キャラクター、スタイル、オブジェクトなどを画像で入力し、一貫性のある動画生成が可能
- カメラコントロール: 回転、ズーム、ドリーなどのカメラ移動を設定可能
- Outpainting: フレーム拡張により縦から横への変換やシーンの自然な拡張が可能
- オブジェクトの追加と削除: オブジェクトのサイズ・影・相互作用まで反映して自然に編集可能
-
これらの機能はFlowで利用でき、Vertex AI APIにも順次適用予定
Flow: Veoに最適化されたAI映画制作ツール
- FlowはVeo、Imagen、Geminiを統合し、自然言語ベースでシーン、キャラクター、スタイルなどを設定して動画として実現可能
- 米国のAI ProおよびUltraプランのユーザーに提供され、今後ほかの国にも順次拡大予定
Imagen 4: 解像度、ディテール、タイポグラフィの向上
- Imagen 4は細密なテクスチャ表現、フォトリアリスティックおよび抽象スタイルのサポート、2K解像度出力を提供
- タイポグラフィ機能も向上し、カード、ポスター、漫画の制作に有利
- Geminiアプリ、Vertex AI、Slides、Docs、Whiskなどで利用可能で、最大10倍高速なバージョンもまもなく公開予定
Lyria 2: インタラクティブな音楽生成
- 音楽家向けのMusic AI Sandboxに含まれるモデルで、創作実験を支援し、新たな音楽探索を可能にする
- YouTube Shorts、Vertex AI、MusicFX DJなどで利用可能で、APIおよびAI Studioを通じたリアルタイムインタラクションも提供
SynthIDでAI生成コンテンツを識別可能
- 2023年から始まったSynthIDは、画像、動画、音声、テキストなど100億件以上のAI生成コンテンツにウォーターマークを挿入
- 新たに公開されたSynthID Detectorを通じて、ユーザーも生成の有無を判別可能
- Googleは生成AIが創作を支援する方向で活用されるよう、責任あるツール設計と公開協力を継続
1件のコメント
Hacker Newsの意見
実際にテストしてみると、Imagen 4の性能はImagen 3と比べて大きく向上した点がなく、プロンプト精度もおよそ60%程度だという点
このテストが「モデルが当てられるか」と「頻繁に当てられるか」のどちらを評価しているのか気になる
成功率、あるいは成功率の閾値を決めて試行回数を固定して測定する方が適切だと思う
こうした結果を通じて、現在のモデルの限界が分かる興味深いリソースだと思う
Geminiでは使用モデルを教えてくれず、Vertex AIを使っているのかも疑問
いまやプロ向けツールがオープンソース版を大きく引き離している感じ
wanやhunyuanのような無料モデルも素晴らしいが、GoogleやRunwayの最新成果物は一段上だと感じる
特に、編集ツール――モーション、方向、カット、オーディオ挿入のような機能――が、純粋な生成力以上に大きな差別化要因
大企業が明確に広告代理店/ハリウッド分野を狙っている雰囲気
こうしたツールがまもなく業界標準になる日が、思ったより早く来るのではと期待
まだ1〜2世代ほどの進化は必要だが、成果物は非常に優れているという評価
ローカル生成では、過度に厳しい可能性のあるプラットフォームのコンテンツ審査を避けられる
comfy UIは初心者には難しいが、大きな制約のないクローズドツールを使うくらいなら、まだ小規模なYouTubeチャンネルや小規模プロダクションではオープンソースツールが多く選ばれる気がする
そのときが来れば、何でもどんな品質でもコーディングできるという意味だ
Hunyuan Image 2.0が発表され、テキスト-to-画像/画像-to-画像の品質と速度が非常に印象的
リアルタイム2Dドローイングキャンバスアプリを作り、Kreaが提供していた機能をすべて実装したレベル
以前と違って今回はクローズドソースなのが残念
Hunyuan 3D 2.0も良かったが、3D 2.5はまだ公開されていない
Hunyuan VideoはWanと比べて進展がないが、Wanは最近VACEというマルチモーダル/編集レイヤーによって注目を集めている
ComfyコミュニティもVACEとWanで素晴らしい結果を生み出しているという分析
低予算インディー映画が演出も演技も不足していても、観客に没入感や笑い、感動を与えられる理由は、全体として一定の品質の一貫性を持っている点にある
一方でAI映像コンテンツは、それぞれのクリップ自体の完成度は高いが、複数のクリップを1つの作品としてつなげたときに没入感を維持するのにはまだ限界があるという意見
冒頭や音によってストーリーの「レッドスレッド(一貫した魅力)」を維持するコンテンツならAI映像でも可能だろうが、まだハリウッドが心配する段階ではないという評価
フィルムグレインのような要素、そして24pフォーマットが今なお芸術的選択であり続ける理由にも言及
18万人の登録者を持つAI映像ベースのシネマティック・ユニバースを作っており、とても面白いショー
「複数のAI映像クリップをつないで没入させるのは遠い未来」という主張は、すでに現実で覆されていると主張
AIネイティブ映像は従来のハリウッドの3幕構成とは大きく異なるかもしれないが、もし視聴者がそちらへ移るなら、ハリウッドも結局同じ道を歩むだろうという見方
本当の問題はコンテンツの質ではなく流通力・配信力であり、Googleのような世界最大級の文化流通事業者が、アート界が苦しんでいる核心を無視して見当違いの方向に力を注いでいるという批判
いまや誰もがAI生成映像を一度は見て、本物だと思ってしまったことがある時点
あまりに目立つ例は見分けやすいが、経験を重ねるほど、AI映像がますます自然に私たちのそばへ入り込んでくる現象
GoogleがDarren AronofskyのAIスタジオPrimordial Soupと協業している状況
SAG-AFTRAのストライキでハリウッドにおけるAI利用禁止が議論されたが、この新しいスタジオはなぜ影響を受けなかったのかが気になる
したがって組合所属の俳優は雇えないが、会社の性格上、大きな問題ではなさそう
今回の作業の技術水準は驚くほど高く、オーディオとビデオの同期が本当に優れており、会話も別個の音声モデルに劣らないほど素晴らしい点に感嘆
フクロウの映像と老人の映像には少しアンキャニー・バレー(違和感)を感じ、折り紙の映像ではやや脅威的で攻撃的な印象を受ける
以前は違和感のある映像を作るために巨大な開発チーム、アーティスト、スーパーコンピュータ・クラスターと長いレンダリング時間が必要だったが、今では巨大クラスターと推論時間さえあればよい
驚異的な技術のおかげで開発チームに心から感嘆
同時に残念さも大きい
AIが非創造的な仕事をもっと自動化し、創作者たちがAIコンテンツの洪水に埋もれないでほしいという願い
まだAIの精度は80%水準だが、残り20%を埋めるのは本当に骨の折れる道のり
速い飛行機(技術)で到着しても、最後の一歩(完成度)には渋滞のような難関があるという比喩
これからAIが開く創作の新しい可能性が楽しみだという期待
音楽も同様で、録音技術以前はライブ演奏だけが本物だった
今ではデジタル時代こそが、むしろ芸術史においては奇妙な時期かもしれないという視点
実際には何十時間もかけて手作業でモデルを作り、リギングすることの方がむしろ非創造的労働だという見方
AIモデルが創造性を生み出し、芸術家が創造的ビジョンを実現できるようにするという論理を興味深く見ている
新しい時代において「何を作るか」ではなく「引き出すか」へと役割が変わりつつある中で
テキストプロンプトベースの創作が本当に「ビジョン」なのか、「プロセス」がなくても芸術への道が残るのかなど、創作の本質に関する考察
創作という概念自体が微妙に再定義されていく現象
彼らにとっては非常に都合のよい再定義だ
芸術の本質、成果物、プロセスとその関係は、いくら議論しても尽きない
データ構造のポインタとデータそのものを混同するのと本質的に似ているという面白い比喩
ソフトウェアエンジニアがソースコードを通じてビジョンを実現するように、創作分野も変わっていくだろうという予測
(デジタル音楽/TV/デジタルアート)
以前の方式を高級芸術と見なす少数派だけが残ったという分析
Veo3を実際に使ってみた人がいるのか気になる
デモ映像は印象的だが、Soraを使ったときは実際の使用体験がかなりフラストレーションの多いもので、当たり外れが大きかったという個人的経験の共有