10 ポイント 投稿者 GN⁺ 2025-08-27 | 2件のコメント | WhatsAppで共有
  • Googleが、Nano-Bananaとして知られる、画像生成・編集能力がさらに強化された Gemini 2.5 Flash Image を公開
  • キャラクターの一貫性維持自然言語ベースの部分編集世界知識の活用複数画像の結合 などをサポート
  • 開発者は Gemini API、Google AI Studio、Vertex AI、OpenRouter、fal.ai などを通じてモデルをすぐに利用可能
  • 価格は出力トークン100万あたり30ドル、画像1枚あたり約0.039ドル
  • すべての生成結果には、見えないデジタル SynthID ウォーターマーク が埋め込まれる

Gemini 2.5 Flash Image の紹介

  • Googleは、次世代の画像生成・編集モデルである Gemini 2.5 Flash Image(コードネーム nano-banana)を発表
  • 今回のアップデートにより、複数の画像を1つに合成、特定の人物やオブジェクトの一貫性維持、自然言語を用いた細かな変形、さらに Gemini の世界知識 に基づく画像生成・編集が可能に
  • 初期バージョンの Gemini 2.0 Flash でも低レイテンシ、高いコスト効率、使いやすさが強みだったが、ユーザーのフィードバックを反映し、今回は より高品質な画像と強化された創造的な制御機能 が追加された
  • 現在は Gemini APIGoogle AI StudioVertex AI などで利用可能で、課金は出力トークン100万あたり30ドル(画像1枚あたり約0.039ドル)
  • その他の入出力方式も Gemini 2.5 Flash と同じ価格体系に従う
  • 公式サイト https://deepmind.google/models/gemini/image/

主な機能とシナリオ

  • Google AI Studio の「Build Mode」アップグレード

    • Gemini 2.5 Flash Image により、アプリ開発がさらに簡単に
    • 開発者は カスタム AI アプリ をすばやく作成、テスト、リミックスでき、Google AI Studio から直接デプロイしたり、コードを GitHub に保存したりできる
    • たとえば「ユーザーが画像をアップロードし、フィルターを適用できる画像編集アプリを作成」といったプロンプトで簡単にアプリを作れる
    • 標準提供のテンプレートを選択・リミックスする機能も無料で提供
  • キャラクターの一貫性維持

    • 画像生成の過程で 同じキャラクターの外見を維持すること は大きな課題だった
    • Gemini 2.5 Flash Image は、同じ人物をさまざまな環境に配置したり、製品を複数の角度・場所で表現したり、ブランド資産の一貫性を確保したりする用途 に効果的
    • Google AI Studio テンプレートアプリ を通じて、キャラクター一貫性のデモやコードのカスタマイズが容易
    • この機能は、不動産カード、社員バッジ、大量の商品モックアップなど、テンプレートベースのデザイン一貫性 の確保にも応用できる
  • 自然言語プロンプトベースの画像編集

    • ユーザーは 自然言語の指示だけで画像の一部を変形 できる
    • 例として、背景のぼかし、Tシャツのしみ消し、人物の削除、ポーズ変更、モノクロ画像をカラー画像に変換することなどがある
    • UI/プロンプトベースで編集できるテンプレートアプリ が提供され、実際の利用体験が可能
  • 世界知識を活用したネイティブ利用

    • 従来モデルは美的な画像生成に強みがある一方で、現実世界に対する意味論的理解 は弱かった
    • Gemini 2.5 Flash Image は 世界知識に基づいて、手描きの図の認識、現実世界に関する質問への対応、複雑な編集命令の実行などが可能
    • 実際の適用例として、シンプルなキャンバスを 対話型の教育チューター に変換するアプリが提供される
  • マルチ画像融合

    • このモデルは複数の画像を 理解し、自然に合成 できる
    • たとえば 商品を新しい背景に挿入 したり、部屋全体のカラートーンや質感を変更したり、単一のプロンプトで画像を融合したりできる
    • テンプレートアプリを使ってドラッグ&ドロップで製品を配置し、フォトリアリスティックな融合画像を生成 可能

開始方法とパートナーシップ

  • 開発者ドキュメント を通じてすぐに開始でき、現在はプレビュー段階だが間もなく安定化予定
  • デモアプリはすべて Google AI Studio でコードのリミックスとカスタマイズが可能
  • OpenRouter.ai と提携し、300万人の開発者にモデルを提供。OpenRouter が対応する480以上のモデルの中で、初の画像生成対応モデルとなる
  • fal.ai との協業により、より広い開発者コミュニティへのサポートを拡大

デジタルウォーターマークとフィードバック

  • Gemini 2.5 Flash Image で生成・編集されたすべての画像には、見えない SynthID デジタルウォーターマーク が埋め込まれ、AI生成物であることを検出できる
  • テキスト品質、キャラクターの一貫性、画像の細部描写など、継続的に機能改善中
  • 開発者からのフィードバックは Google 開発者フォーラムまたは X(旧 Twitter)を通じて随時受け付けている

簡単な利用例(Python コード)

  • Python では genai SDK、PIL、io ライブラリ を通じて、任意のプロンプトと画像で Gemini 2.5 Flash Image を利用可能
  • 例: 「レストランで nano-banana を食べている私の猫」のような自由なプロンプトを適用可能
  • 出力結果はコード内でプレーンテキストと画像ファイルの両方として保存できる

今後の発展方向

  • 長文テキストのレンダリング、より信頼性の高いキャラクター一貫性、写実的な細部表現など、継続的な品質向上を開発中
  • コミュニティの積極的な参加とフィードバックを促進
  • Gemini 2.5 Flash Image により、多様な創作と開発体験の拡大が期待される

2件のコメント

 
GN⁺ 2025-08-27
Hacker Newsの意見
  • これは画像編集モデルにおけるGPT-4の瞬間のように感じる。Twitterで驚くべき結果を見る
    • nano banana、つまり gemini 2.5 flash は性能がすさまじく、lmarena で 171 elo ポイントも跳ね上がった
    • Twitter で nano banana を検索すると、驚くような結果が見られる
    • 最近は "nano banana" ドメインがすべて取得されていて、それぞれが画像生成 UI を提供しているが、どれも人気モデル名を利用した中間業者のように感じる
    • どうして nano banana という名前なのか気になる
  • これがあの有名な nano-banana モデルで、今は LMArena でgemini-2.5-flash-image-previewという名前に変わっている
  • Gemini で画像を作ろうとすると、半分は不可能だと返答される
    • しかも Google が発表した機能があちこちに散らばっていて、どの製品で使えるのか、どこで支払えばいいのかまったく見当がつかない混乱がある
  • 画像モデルは結局のところ時間泥棒のようなものだ
    • 部屋を1つ作るのは簡単だが、同じ部屋を複数の角度から一貫して作るのは事実上不可能だ
    • 画像の一貫性が必要な作業には使いにくい
  • 家族写真をデジタル化したが、損傷がひどいものが多く、復元が大変だった
    • 今回のモデルはディテールを変えずに復元するのが得意そうで、ようやく実用になる時点が来た気がする
    • 実際にはこうした欠陥はフィルムスキャナー + ICE機能と Vuescan のようなソフトウェアで自動復元できる
      • 何百枚も実験的なクラウド AI に任せるのは不要に思える
    • 動画の画質改善ソフトを知っている人がいれば知りたい
      • Video 2000 と VHS テープをデジタル化していて、思い出の映像を少しでも改善したい
    • うまくいくことを願うが、例の1つは顔が過度にAIっぽい感じになっていた
    • 実は Flux Kontext というモデルが数か月前からすでにこの水準に達していた
  • モデル性能は印象的だが、同時に社会的影響が心配でもある
    • Facebook のコメント欄を見るだけでも不安になる
    • Google のSynthIDを試してみたが、かなり良かった
      • 圧縮、クロップ、リサイズ、色補正、オーバーペイントをしてもウォーターマークが残る
    • 私も最近、SpaceX の打ち上げイベント中のディープフェイク詐欺に引っかかって 15k BTC を失った
      • 技術があまりに精巧で、攻撃はますます危険になっている
    • Facebook のコメントはボットが回しているのが確実に見える
  • ランプの例はかなり印象的だった
    • 電源接続、照明、影まで自然に表現されている
  • ChatGPT の画像生成よりずっと高速なのが気に入っている
    • ChatGPT は遅すぎて、通知で結果を受け取る必要があるほどだった
    • 「Gemini 2.5 Flash Image を使ってみた OpenAI 投資家たちの姿」みたいな画像を想像すると笑ってしまう
  • 以前からやりたかった作業があった
    • 画像1の特定のオブジェクトを画像2のオブジェクトに置き換えることで、位置まで正確に指定したかった
    • いくつものモデルを試したが全部失敗し、今回のモデルはかなり近かったものの、結局は別のオブジェクトを置き換えてしまった
    • 特定の位置を参照画像で置き換えることに特化したモデルがあるのか気になる
    • Alibaba の ACE++ モデルがそうした機能をサポートしている
      • phind.design で使われているが、かなり特殊な作業なので一般的ではない