2 ポイント 投稿者 GN⁺ 2025-05-21 | 1件のコメント | WhatsAppで共有
  • Google DeepMindがVeo 3Imagen 4Flowを発表し、動画・画像・映画制作ツールを革新的に拡張
  • Veo 3は音声付き動画生成現実の物理法則の反映リップシンクなどの性能を提供
  • Imagen 4は精緻なディテール表現タイポグラフィ処理能力の向上により、制作物の出力に有利
  • Flowはさまざまなモデルを統合し、自然言語ベースの映画制作を可能にする新しい創作ツール
  • すべての生成コンテンツにはSynthIDウォーターマークが挿入され、検出ツールもあわせて公開されて透明性を強化

新しい生成メディアモデルとツールで創造力を発揮しましょう

  • Googleは最新の生成メディアモデルであるVeo 3、Imagen 4、そして新しい映画制作ツールFlowを発表
  • これらのモデルは画像、動画、音楽を生成し、クリエイターが思い描く世界の実現を支援
  • Google DeepMindは映像制作者、音楽家、アーティストと協力してツールを共同設計し、責任あるAI活用を重視

Veo 3: 音声を含む高度な動画生成

  • Veo 3はVeo 2より向上した品質の動画を生成し、初めて環境音やセリフなどの音声を含む動画生成が可能
  • テキストまたは画像ベースのプロンプトを通じて現実的な物理ベースの映像制作が可能で、リップシンクも正確
  • GeminiアプリとFlow、Vertex AIを通じて米国でUltraプランのユーザーに提供中

Veo 2: クリエイターのフィードバックに基づく機能追加

  • Veo 2にはクリエイターからのフィードバックをもとに、次のような機能が追加:

    • リファレンスベースの動画生成: キャラクター、スタイル、オブジェクトなどを画像で入力し、一貫性のある動画生成が可能
    • カメラコントロール: 回転、ズーム、ドリーなどのカメラ移動を設定可能
    • Outpainting: フレーム拡張により縦から横への変換やシーンの自然な拡張が可能
    • オブジェクトの追加と削除: オブジェクトのサイズ・影・相互作用まで反映して自然に編集可能
  • これらの機能はFlowで利用でき、Vertex AI APIにも順次適用予定

Flow: Veoに最適化されたAI映画制作ツール

  • FlowはVeo、Imagen、Geminiを統合し、自然言語ベースでシーン、キャラクター、スタイルなどを設定して動画として実現可能
  • 米国のAI ProおよびUltraプランのユーザーに提供され、今後ほかの国にも順次拡大予定

Imagen 4: 解像度、ディテール、タイポグラフィの向上

  • Imagen 4は細密なテクスチャ表現フォトリアリスティックおよび抽象スタイルのサポート2K解像度出力を提供
  • タイポグラフィ機能も向上し、カード、ポスター、漫画の制作に有利
  • Geminiアプリ、Vertex AI、Slides、Docs、Whiskなどで利用可能で、最大10倍高速なバージョンもまもなく公開予定

Lyria 2: インタラクティブな音楽生成

  • 音楽家向けのMusic AI Sandboxに含まれるモデルで、創作実験を支援し、新たな音楽探索を可能にする
  • YouTube Shorts、Vertex AI、MusicFX DJなどで利用可能で、APIおよびAI Studioを通じたリアルタイムインタラクションも提供

SynthIDでAI生成コンテンツを識別可能

  • 2023年から始まったSynthIDは、画像、動画、音声、テキストなど100億件以上のAI生成コンテンツにウォーターマークを挿入
  • 新たに公開されたSynthID Detectorを通じて、ユーザーも生成の有無を判別可能
  • Googleは生成AIが創作を支援する方向で活用されるよう、責任あるツール設計と公開協力を継続

1件のコメント

 
GN⁺ 2025-05-21
Hacker Newsの意見
  • 実際にテストしてみると、Imagen 4の性能はImagen 3と比べて大きく向上した点がなく、プロンプト精度もおよそ60%程度だという点

    • なぜ成功したときは1回だけ試し、失敗したモデルは何度も繰り返すのか疑問に感じる
      このテストが「モデルが当てられるか」と「頻繁に当てられるか」のどちらを評価しているのか気になる
      成功率、あるいは成功率の閾値を決めて試行回数を固定して測定する方が適切だと思う
    • "The Yarrctic Circle"ではOpenAI 4oが優勝したが、カトラスを持っていない点、美しさはあるが視点がおかしく、解剖学的にも脚が実際には150%長くなっている部分など、基本的な面で完全に間違っている
      こうした結果を通じて、現在のモデルの限界が分かる興味深いリソースだと思う
    • "Not the Bees"の優勝作の手が運転手とはまったく違って描かれており、まともに通過したとは見なしにくいという判断
    • 実際にImagen 4を使っているのか、Imagen 3を使っているのかをどう確認するのか気になる
      Geminiでは使用モデルを教えてくれず、Vertex AIを使っているのかも疑問
    • より難しい例を挙げて、テスト基準の難しさを提案
      • なみなみと注がれたワイングラス
      • 時計の針が10時10分を指している状態(つまり、V字を示していない時計)
      • 9段階のIKEA棚の組み立て図
      • あらゆる種類の体操やアクロバットなど
  • いまやプロ向けツールがオープンソース版を大きく引き離している感じ
    wanやhunyuanのような無料モデルも素晴らしいが、GoogleやRunwayの最新成果物は一段上だと感じる
    特に、編集ツール――モーション、方向、カット、オーディオ挿入のような機能――が、純粋な生成力以上に大きな差別化要因
    大企業が明確に広告代理店/ハリウッド分野を狙っている雰囲気
    こうしたツールがまもなく業界標準になる日が、思ったより早く来るのではと期待
    まだ1〜2世代ほどの進化は必要だが、成果物は非常に優れているという評価

    • オープンソースは利便性では劣るものの、プロ環境ではcustom lora、control netなどの機能を通じて生成過程の途中で望む要素を追加できる点が重要な強みだと思う
      ローカル生成では、過度に厳しい可能性のあるプラットフォームのコンテンツ審査を避けられる
      comfy UIは初心者には難しいが、大きな制約のないクローズドツールを使うくらいなら、まだ小規模なYouTubeチャンネルや小規模プロダクションではオープンソースツールが多く選ばれる気がする
    • GAIの本当の存在証明は、品質の差が消えたときに可能になる
      そのときが来れば、何でもどんな品質でもコーディングできるという意味だ
    • agency/hollywoodターゲティングの本当の目的は広告分野だという見方
    • Tencent Hunyuanチームの進展状況を分析
      Hunyuan Image 2.0が発表され、テキスト-to-画像/画像-to-画像の品質と速度が非常に印象的
      リアルタイム2Dドローイングキャンバスアプリを作り、Kreaが提供していた機能をすべて実装したレベル
      以前と違って今回はクローズドソースなのが残念
      Hunyuan 3D 2.0も良かったが、3D 2.5はまだ公開されていない
      Hunyuan VideoはWanと比べて進展がないが、Wanは最近VACEというマルチモーダル/編集レイヤーによって注目を集めている
      ComfyコミュニティもVACEとWanで素晴らしい結果を生み出しているという分析
  • 低予算インディー映画が演出も演技も不足していても、観客に没入感や笑い、感動を与えられる理由は、全体として一定の品質の一貫性を持っている点にある
    一方でAI映像コンテンツは、それぞれのクリップ自体の完成度は高いが、複数のクリップを1つの作品としてつなげたときに没入感を維持するのにはまだ限界があるという意見
    冒頭や音によってストーリーの「レッドスレッド(一貫した魅力)」を維持するコンテンツならAI映像でも可能だろうが、まだハリウッドが心配する段階ではないという評価
    フィルムグレインのような要素、そして24pフォーマットが今なお芸術的選択であり続ける理由にも言及

    • NeuralVizのYouTubeチャンネルを推薦
      18万人の登録者を持つAI映像ベースのシネマティック・ユニバースを作っており、とても面白いショー
      「複数のAI映像クリップをつないで没入させるのは遠い未来」という主張は、すでに現実で覆されていると主張
    • AI映像コンテンツがハリウッドに与える影響は、写真が絵画に与えた影響と似ている
      AIネイティブ映像は従来のハリウッドの3幕構成とは大きく異なるかもしれないが、もし視聴者がそちらへ移るなら、ハリウッドも結局同じ道を歩むだろうという見方
    • 見る価値のある良質なコンテンツはすでにあふれている時代
      本当の問題はコンテンツの質ではなく流通力・配信力であり、Googleのような世界最大級の文化流通事業者が、アート界が苦しんでいる核心を無視して見当違いの方向に力を注いでいるという批判
  • いまや誰もがAI生成映像を一度は見て、本物だと思ってしまったことがある時点
    あまりに目立つ例は見分けやすいが、経験を重ねるほど、AI映像がますます自然に私たちのそばへ入り込んでくる現象

  • GoogleがDarren AronofskyのAIスタジオPrimordial Soupと協業している状況
    SAG-AFTRAのストライキでハリウッドにおけるAI利用禁止が議論されたが、この新しいスタジオはなぜ影響を受けなかったのかが気になる

    • Primordial Soupが組合とは無関係の会社なので、ストライキ協定に拘束されないため
      したがって組合所属の俳優は雇えないが、会社の性格上、大きな問題ではなさそう
  • 今回の作業の技術水準は驚くほど高く、オーディオとビデオの同期が本当に優れており、会話も別個の音声モデルに劣らないほど素晴らしい点に感嘆

  • フクロウの映像と老人の映像には少しアンキャニー・バレー(違和感)を感じ、折り紙の映像ではやや脅威的で攻撃的な印象を受ける

    • この20年間の大きな進歩を実感
      以前は違和感のある映像を作るために巨大な開発チーム、アーティスト、スーパーコンピュータ・クラスターと長いレンダリング時間が必要だったが、今では巨大クラスターと推論時間さえあればよい
    • ページ下部の編みぐるみキャラクター版ではずっと良く感じられ、現実から少し離れるほどアンキャニー・バレーを避けやすいという示唆
    • フクロウの映像には典型的なAI画像特有の「光沢」があり、老人の映像は非常に印象的だったという評価
    • 折り紙(オリガミ)は映像より音声の方がより現実的という印象で、それぞれに自分自身が映し返されるような感覚
  • 驚異的な技術のおかげで開発チームに心から感嘆
    同時に残念さも大きい
    AIが非創造的な仕事をもっと自動化し、創作者たちがAIコンテンツの洪水に埋もれないでほしいという願い

    • 非創造的な作業の自動化もやがて来るだろうが、より高い精度が必要なのでさらに難しく、時間もかかるという説明
      まだAIの精度は80%水準だが、残り20%を埋めるのは本当に骨の折れる道のり
      速い飛行機(技術)で到着しても、最後の一歩(完成度)には渋滞のような難関があるという比喩
    • こういう話が出ると大量のゲートキーピングを見るが、AIによってより多くの人が創作にアクセスできるようになる点を前向きに見る意見
      これからAIが開く創作の新しい可能性が楽しみだという期待
    • 非創造的業務のためのデータは、他人の同意なしには収集しにくいからだという意見
    • 以前は芸術作品(特にデジタル)がここまで簡単に流通したわけではなかった
      音楽も同様で、録音技術以前はライブ演奏だけが本物だった
      今ではデジタル時代こそが、むしろ芸術史においては奇妙な時期かもしれないという視点
    • 「AIが創作者をAIで作られた作品の山に埋もれさせる」と言われるが、AIにプロンプトを精密に与えることも創作であり
      実際には何十時間もかけて手作業でモデルを作り、リギングすることの方がむしろ非創造的労働だという見方
  • AIモデルが創造性を生み出し、芸術家が創造的ビジョンを実現できるようにするという論理を興味深く見ている
    新しい時代において「何を作るか」ではなく「引き出すか」へと役割が変わりつつある中で
    テキストプロンプトベースの創作が本当に「ビジョン」なのか、「プロセス」がなくても芸術への道が残るのかなど、創作の本質に関する考察
    創作という概念自体が微妙に再定義されていく現象

    • この再定義の過程で、2〜3の大手プラットフォームが制作手段を独占することになるという批判
      彼らにとっては非常に都合のよい再定義だ
    • 創造的ビジョンが1つのプロンプトに凝縮できると信じるには、想像力そのものに限界があると考えることになる
      芸術の本質、成果物、プロセスとその関係は、いくら議論しても尽きない
      データ構造のポインタとデータそのものを混同するのと本質的に似ているという面白い比喩
    • テキストプロンプトは非常に短いが、プロンプト追従能力が向上すれば変化は大きくならざるを得ない
      ソフトウェアエンジニアがソースコードを通じてビジョンを実現するように、創作分野も変わっていくだろうという予測
    • LLM企業は人々をサービスに依存させ、あらゆる経済活動で自分たちが中間利益を取ろうとする戦略を持っているという意見
    • オペラ/演劇/手仕事の芸術も似たような過程を経て、結局人々は次第により簡単で消費しやすいものへ移っていった
      (デジタル音楽/TV/デジタルアート)
      以前の方式を高級芸術と見なす少数派だけが残ったという分析
  • Veo3を実際に使ってみた人がいるのか気になる
    デモ映像は印象的だが、Soraを使ったときは実際の使用体験がかなりフラストレーションの多いもので、当たり外れが大きかったという個人的経験の共有