- Googleが、Nano-Bananaとして知られる、画像生成・編集能力がさらに強化された Gemini 2.5 Flash Image を公開
- キャラクターの一貫性維持、自然言語ベースの部分編集、世界知識の活用、複数画像の結合 などをサポート
- 開発者は Gemini API、Google AI Studio、Vertex AI、OpenRouter、fal.ai などを通じてモデルをすぐに利用可能
- 価格は出力トークン100万あたり30ドル、画像1枚あたり約0.039ドル
- すべての生成結果には、見えないデジタル SynthID ウォーターマーク が埋め込まれる
Gemini 2.5 Flash Image の紹介
- Googleは、次世代の画像生成・編集モデルである Gemini 2.5 Flash Image(コードネーム nano-banana)を発表
- 今回のアップデートにより、複数の画像を1つに合成、特定の人物やオブジェクトの一貫性維持、自然言語を用いた細かな変形、さらに Gemini の世界知識 に基づく画像生成・編集が可能に
- 初期バージョンの Gemini 2.0 Flash でも低レイテンシ、高いコスト効率、使いやすさが強みだったが、ユーザーのフィードバックを反映し、今回は より高品質な画像と強化された創造的な制御機能 が追加された
- 現在は Gemini API、Google AI Studio、Vertex AI などで利用可能で、課金は出力トークン100万あたり30ドル(画像1枚あたり約0.039ドル)
- その他の入出力方式も Gemini 2.5 Flash と同じ価格体系に従う
- 公式サイト https://deepmind.google/models/gemini/image/
主な機能とシナリオ
-
Google AI Studio の「Build Mode」アップグレード
- Gemini 2.5 Flash Image により、アプリ開発がさらに簡単に
- 開発者は カスタム AI アプリ をすばやく作成、テスト、リミックスでき、Google AI Studio から直接デプロイしたり、コードを GitHub に保存したりできる
- たとえば「ユーザーが画像をアップロードし、フィルターを適用できる画像編集アプリを作成」といったプロンプトで簡単にアプリを作れる
- 標準提供のテンプレートを選択・リミックスする機能も無料で提供
-
キャラクターの一貫性維持
- 画像生成の過程で 同じキャラクターの外見を維持すること は大きな課題だった
- Gemini 2.5 Flash Image は、同じ人物をさまざまな環境に配置したり、製品を複数の角度・場所で表現したり、ブランド資産の一貫性を確保したりする用途 に効果的
- Google AI Studio テンプレートアプリ を通じて、キャラクター一貫性のデモやコードのカスタマイズが容易
- この機能は、不動産カード、社員バッジ、大量の商品モックアップなど、テンプレートベースのデザイン一貫性 の確保にも応用できる
-
自然言語プロンプトベースの画像編集
- ユーザーは 自然言語の指示だけで画像の一部を変形 できる
- 例として、背景のぼかし、Tシャツのしみ消し、人物の削除、ポーズ変更、モノクロ画像をカラー画像に変換することなどがある
- UI/プロンプトベースで編集できるテンプレートアプリ が提供され、実際の利用体験が可能
-
世界知識を活用したネイティブ利用
- 従来モデルは美的な画像生成に強みがある一方で、現実世界に対する意味論的理解 は弱かった
- Gemini 2.5 Flash Image は 世界知識に基づいて、手描きの図の認識、現実世界に関する質問への対応、複雑な編集命令の実行などが可能
- 実際の適用例として、シンプルなキャンバスを 対話型の教育チューター に変換するアプリが提供される
-
マルチ画像融合
- このモデルは複数の画像を 理解し、自然に合成 できる
- たとえば 商品を新しい背景に挿入 したり、部屋全体のカラートーンや質感を変更したり、単一のプロンプトで画像を融合したりできる
- テンプレートアプリを使ってドラッグ&ドロップで製品を配置し、フォトリアリスティックな融合画像を生成 可能
開始方法とパートナーシップ
- 開発者ドキュメント を通じてすぐに開始でき、現在はプレビュー段階だが間もなく安定化予定
- デモアプリはすべて Google AI Studio でコードのリミックスとカスタマイズが可能
- OpenRouter.ai と提携し、300万人の開発者にモデルを提供。OpenRouter が対応する480以上のモデルの中で、初の画像生成対応モデルとなる
- fal.ai との協業により、より広い開発者コミュニティへのサポートを拡大
デジタルウォーターマークとフィードバック
- Gemini 2.5 Flash Image で生成・編集されたすべての画像には、見えない SynthID デジタルウォーターマーク が埋め込まれ、AI生成物であることを検出できる
- テキスト品質、キャラクターの一貫性、画像の細部描写など、継続的に機能改善中
- 開発者からのフィードバックは Google 開発者フォーラムまたは X(旧 Twitter)を通じて随時受け付けている
簡単な利用例(Python コード)
- Python では genai SDK、PIL、io ライブラリ を通じて、任意のプロンプトと画像で Gemini 2.5 Flash Image を利用可能
- 例: 「レストランで nano-banana を食べている私の猫」のような自由なプロンプトを適用可能
- 出力結果はコード内でプレーンテキストと画像ファイルの両方として保存できる
今後の発展方向
- 長文テキストのレンダリング、より信頼性の高いキャラクター一貫性、写実的な細部表現など、継続的な品質向上を開発中
- コミュニティの積極的な参加とフィードバックを促進
- Gemini 2.5 Flash Image により、多様な創作と開発体験の拡大が期待される
2件のコメント
Google Nano Bananaとは何か? Googleの秘密の画像AI
Hacker Newsの意見