3 ポイント 投稿者 GN⁺ 2025-05-08 | 1件のコメント | WhatsAppで共有
  • GoogleがGemini 2.0 Flashモデルによる画像生成機能を開発者プレビューとして公開
  • テキストベースの指示で画像生成、修正、部分編集まで可能で、視覚品質とテキストレンダリングも改善
  • 製品のリスキン、SKU生成、リアルタイム共同編集など多様な活用事例を紹介
  • [Google AI Studio] と [Vertex AI] ですぐにテスト可能で、API利用制限も引き上げ

Gemini 2.0 Flash画像生成機能プレビュー公開

  • 開発者からのフィードバックを受け、GoogleはGemini 2.0 Flashモデルを通じた画像生成機能をプレビュー版として提供
  • ユーザーは Google AI Studio または Vertex AI から利用可能

主な改善点

  • 視覚品質の向上(以前の実験版比)
  • テキストレンダリング精度の向上
  • フィルターブロック率の低下

活用できる画像生成機能の例

  • 製品画像の背景再構成:既存の製品写真を多様な背景や環境で再構成可能
  • リアルタイム共同編集:Gemini Co-Drawingアプリ複数ユーザーによるリアルタイム画像編集をサポート
  • 画像の一部だけを対話的に編集:全体を変更せず、特定領域のみを対話型コマンドで修正可能
  • 製品SKUの動的生成:画像とテキストを組み合わせて新しい製品バリエーション(カラー、ラベルなど)を自動生成
  • Geminiとのアイデア発想コラボレーション:テキスト+画像の組み合わせにより、料理、製品、企画など多様なシナリオを実現可能

API使用例 (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

今後の計画

  • Googleは今後、より高品質化、機能追加、高速化、料金プラン改善などを通じて機能を継続的に拡張する予定
  • 詳細なドキュメントは Gemini API画像生成ガイド を参照

1件のコメント

 
GN⁺ 2025-05-08
Hacker Newsの意見
  • Gemini 2.0を複数の画像生成モデルと比較テストした。GoogleのImagen 3.0がどの程度組み込まれているのかは分からないが、全体的な美的品質はかなり劣るように思える
    • 主な利点は、OpenAIの製品との同等性を維持しようとするマルチモーダル面と、OpenAI 4oの画像生成よりはるかに高速であること
  • このツールは、望む結果を得るために毎回何度も試行しなければならないことが多い。対話型インターフェースの利用には疑問がある
  • 注意して使う必要がある。例えば、ベジタリアン向けバターチキンのレシピを依頼したところ、41MBのJSONと28個のbase64画像が返ってきた。画像1枚あたり4セントで、1回のリクエストに1ドル以上かかった
  • Gemini 2.0を使って100個のレシピと画像を生成したが、結果はかなり良かった。テキストプロンプトの代わりに生データとテーブルメタデータを使った
  • Gemini 2.0の画像生成は1枚あたり$0.039で、Imagen 3より高い。Geminiは対話を通じて画像を生成できるが、Imagen 3はテキスト入力/画像出力方式である
  • コードローイングのデモでは結果がまちまちだった。シーンをスケッチしてモデルがそれを拡張することを期待したが、3Dレンダリングされた棒人間が生成された
  • モデルの出力はまずまずで、最近のプロジェクトで新しいモデルに更新した。依然として多くの失敗パターンがあるが、優れたワークフローを示す大きな料理本が必要だ
  • Googleや他のAI企業が目指しているのは、ショッピングや電子商取引に利用できる無限のAI生成オブジェクトの世界だ。これは本物の人間の職人技と実在するオブジェクトへの挑戦である