- GeminiとWhiskを通じて、テキストベースのプロンプトを高解像度の8秒動画に変換できる機能が提供される
- Veo 2モデルを使用して、現実感のある動画を生成でき、Google One AI Premium加入者向けに提供される
- Whisk Animateを通じて、画像を8秒のアニメーションクリップに変換できる
- 安全性のため、生成されたすべての動画にはSynthIDデジタル透かしが含まれる
Geminiで動画を生成する方法
- Veo 2は高解像度で細密な動画を生成できるモデルで、現実的な物理法則と人間の動きを理解し、生き生きとしたキャラクターの動きとリアルなシーンを提供する
- ユーザーはGeminiでVeo 2を選択し、720p解像度の8秒動画クリップを生成できる
- シーンを説明すると、Geminiがそのアイデアを動画として実現し、説明が詳細であるほど最終的な動画をより細かくコントロールできる
- 生成された動画は、TikTokやYouTube Shortsのようなプラットフォームに簡単に共有できる
Whisk Animateで画像に命を吹き込む
- Whiskは、テキストと画像のプロンプトを使って新しいアイデアを可視化できるGoogle Labsの実験である
- Whisk Animateを通じて、画像を生き生きとした8秒動画に変換でき、Google One AI Premium加入者向けに提供される
安全性へのアプローチ
- 動画生成の安全性を確保するため、Veo 2で生成されたすべての動画にはSynthIDデジタル透かしが含まれる
- ユーザーからのフィードバックを通じて継続的な改善が行われる予定であり、ポリシー違反コンテンツの生成を防ぐための評価が進められている
2件のコメント
Google DeepMind、動画生成モデル Veo 2 を公開
Hacker Newsのコメント
Whiskは数か月前にImagen 3のデモとしてひっそり公開された。驚くほど面白く、実装もしっかりしている
2027年までに1人で作った映画が1億ドル超の興行収入を上げるというPolymarketのイベントで、「はい」の株を買いたい
Veo 2で8秒の動画を12本作るのに、GCPクレジットを48ドル使った。注意が必要
8秒の動画生成が、有料APIの外で可能になるとは思っていなかった
この分野にそこまで技術的に詳しいわけではないが、なぜすべてがテキスト-to-Xなのか気になる
ジブリ風のスタイルで広告を作るのは大胆だ。もうそのスタイルは使い尽くされたと思っていた
Google VidsもVeo 2を使っている。製品面で混乱がある
コンテンツモデレーションが非常にフラストレーションを感じさせる。Veo 2とGeminiが最終的に失敗する主な理由になるかもしれない
これらすべては技術的には驚異的だが、この分野で真剣に取り組んできた人にとっては大きな警告でもある
Kritaに接続され、img2imgとマスキング、txt2imgを組み合わせたKrita-ai-diffusionは、アーティストに力を与えるツールに最も近い
1年前と比べると非常に印象的なリリースだ。今のMLでは大企業各社が互いに競争しながら技術を前進させており、良い状態にある。これはアメリカでは(あるいは一般的にも)珍しいことだ