1 ポイント 投稿者 GN⁺ 2025-04-17 | 2件のコメント | WhatsAppで共有
  • GeminiWhiskを通じて、テキストベースのプロンプトを高解像度の8秒動画に変換できる機能が提供される
  • Veo 2モデルを使用して、現実感のある動画を生成でき、Google One AI Premium加入者向けに提供される
  • Whisk Animateを通じて、画像を8秒のアニメーションクリップに変換できる
  • 安全性のため、生成されたすべての動画にはSynthIDデジタル透かしが含まれる

Geminiで動画を生成する方法

  • Veo 2は高解像度で細密な動画を生成できるモデルで、現実的な物理法則と人間の動きを理解し、生き生きとしたキャラクターの動きとリアルなシーンを提供する
  • ユーザーはGeminiVeo 2を選択し、720p解像度の8秒動画クリップを生成できる
  • シーンを説明すると、Geminiがそのアイデアを動画として実現し、説明が詳細であるほど最終的な動画をより細かくコントロールできる
  • 生成された動画は、TikTokYouTube Shortsのようなプラットフォームに簡単に共有できる

Whisk Animateで画像に命を吹き込む

  • Whiskは、テキストと画像のプロンプトを使って新しいアイデアを可視化できるGoogle Labsの実験である
  • Whisk Animateを通じて、画像を生き生きとした8秒動画に変換でき、Google One AI Premium加入者向けに提供される

安全性へのアプローチ

  • 動画生成の安全性を確保するため、Veo 2で生成されたすべての動画にはSynthIDデジタル透かしが含まれる
  • ユーザーからのフィードバックを通じて継続的な改善が行われる予定であり、ポリシー違反コンテンツの生成を防ぐための評価が進められている

2件のコメント

 
GN⁺ 2025-04-17
Hacker Newsのコメント
  • Whiskは数か月前にImagen 3のデモとしてひっそり公開された。驚くほど面白く、実装もしっかりしている

    • アップロードした画像をテキスト説明に変換するトリックを使っている
    • Imagen 3の現代的なテキストエンコーダの強みを活用し、変換後の長い説明に従える
  • 2027年までに1人で作った映画が1億ドル超の興行収入を上げるというPolymarketのイベントで、「はい」の株を買いたい

  • Veo 2で8秒の動画を12本作るのに、GCPクレジットを48ドル使った。注意が必要

  • 8秒の動画生成が、有料APIの外で可能になるとは思っていなかった

  • この分野にそこまで技術的に詳しいわけではないが、なぜすべてがテキスト-to-Xなのか気になる

    • 従来のキーフレーム型エディタを使いながら、地形のラフスケッチを描き、キャラクター写真を入れ、3Dスプラインを引いて、細かな創造的コントロールを可能にすることはできないのだろうかと思う
  • ジブリ風のスタイルで広告を作るのは大胆だ。もうそのスタイルは使い尽くされたと思っていた

  • Google VidsもVeo 2を使っている。製品面で混乱がある

  • コンテンツモデレーションが非常にフラストレーションを感じさせる。Veo 2とGeminiが最終的に失敗する主な理由になるかもしれない

    • 子どもがスーパーヒーローごっこをして遊ぶ楽しい動画を作りたいのに、何度やってもうまくいかない
  • これらすべては技術的には驚異的だが、この分野で真剣に取り組んできた人にとっては大きな警告でもある

    • テキスト-to-何でもはとても疲れる。結果がすごくても、自分が作ったわけではないので何の感情も湧かない
    • 97%の場合、結果は欲しいものではない。テキストを少し変えると、また別の間違った結果が出る
    • この一連のプロセスで、財布と忍耐と魂がすり減る
    • こうした「ツール」がクリエイターにどう役立つのか分からない。今のところ、こうしたツールから出てくる産物はTikTokや一般的なインターネット向けのスパム企業ばかりだ
  • Kritaに接続され、img2imgとマスキング、txt2imgを組み合わせたKrita-ai-diffusionは、アーティストに力を与えるツールに最も近い

  • 1年前と比べると非常に印象的なリリースだ。今のMLでは大企業各社が互いに競争しながら技術を前進させており、良い状態にある。これはアメリカでは(あるいは一般的にも)珍しいことだ