Gemini 2.5 Flash Image
(developers.googleblog.com)- Googleが最先端の画像生成・編集モデルである Gemini 2.5 Flash Image を公開
- ユーザーは複数の画像を1つに合成し、キャラクターの一貫性を維持し、自然言語ベースで対象画像を変換する機能を活用可能
- このモデルはGoogle AI Studio、Gemini API、Vertex AIなどを通じて開発者およびエンタープライズ向けに提供
- 画像合成、テンプレートベース生成、プログラマブル編集など多様な活用例を用意
- AIが作成した画像には不可視のデジタルウォーターマーク SynthIDが挿入され、生成・編集画像であることを識別可能
Gemini 2.5 Flash Image の紹介
GoogleはGemini 2.5 Flash Image(コードネーム nano-banana)を公開した。このモデルは画像生成・編集、複数画像の合成、キャラクターの一貫性維持、自然言語命令による包括的な画像修正などをサポートする。また、Gemini の世界知識を活用することで、既存の画像生成モデルと比べてより深い編集能力と高い生成品質を提供する。
Gemini 2.0 Flash の以前のバージョンは低遅延、コスト効率、使いやすさを強みとしていたが、コミュニティの要望に応えてより高い品質とクリエイティブな制御機能が強化された。
このモデルはGemini API、Google AI Studio、Vertex AIを通じてプレビュー版としてすぐに利用可能。価格は出力100万トークンあたり 30.00 ドルで、画像1枚ごとに 1290 トークン(0.039 ドル)が課金される。入力および出力のその他モダリティも Gemini 2.5 Flash の価格ポリシーに従う。
実際の活用事例
Google AI Studio の build mode が刷新され、カスタム AI アプリとして Gemini 2.5 Flash Image の機能を簡単にテスト・開発できるようになった。プロンプトから直接アプリを作成したり、事前提供されたテンプレートを自由にリミックスして使うこともできる。完成したアプリは AI Studio からそのままデプロイすることも、コードを GitHub に保存することも可能。
例示プロンプト: 「ユーザーが画像をアップロードし、さまざまなフィルターを適用する画像編集アプリを作って」
キャラクターの一貫性維持
画像生成における主要な課題だったキャラクターやオブジェクトの外観の一貫性を効果的に維持できる。同じ人物を複数の環境に自然に配置したり、1つの製品をさまざまな角度や設定で作成したり、ブランド関連アセットを一貫性を保って生成したりできる。
Google AI Studio のカスタムテンプレートアプリを通じてキャラクターの一貫性を実演でき、これをもとにコードを自分でカスタマイズすることも可能。
そのほか、ビジュアルテンプレートベースの画像生成にも強みを持つ。不動産カード、社員バッジ、カタログ用製品モックアップなども、単一のデザインテンプレートから大量生成できる。
プロンプトベースの画像編集
自然言語命令だけで部分的な変換や精密なローカル編集をサポートする。たとえば、背景ぼかし、衣類のしみ除去、写真内の人物削除、被写体のポーズ変更、白黒写真のカラー化などを単一のプロンプトで実行できる。
こうした機能を直接体験できるよう、UI とプロンプトベースの写真編集テンプレートアプリも提供される。
ネイティブな世界知識
従来の画像生成モデルは見た目に優れた画像は作れても、現実世界に対する意味論的・深層的な理解が不足している点が課題だった。Gemini 2.5 Flash Image には世界知識ベースが適用されており、新しい用途で特に強みを発揮する。
たとえば、手描きのダイアグラムを読み取って理解したり、現実的な質問に答えたり、複雑な編集命令を実行したりできる。こうした特性はAI Studio 向けのインタラクティブ教育チューターアプリで直接体験できる。
複数画像の合成
複数の入力画像を解釈・融合して合成画像を作成できる。オブジェクトを別のシーンに配置したり、部屋を新しい色や質感でリスタイルしたり、画像を融合したりといった作業を1回のプロンプトで行える。
このために、製品画像をドラッグして新しいシーンへ素早く合成するテンプレートアプリも AI Studio で提供される。
開発開始ガイド
開発者は公式ドキュメントからすぐに始められ、現在はプレビューとして提供中。本文で紹介したデモアプリはすべてGoogle AI Studio で vibe code により制作されており、プロンプトだけでリミックスやカスタマイズが可能。
OpenRouter.aiとの協力により、世界中の300万人以上の開発者が利用可能で、現在 OpenRouter で画像生成をサポートする最初のモデルとなっている。fal.aiとの提携により、さらに広い生成メディア開発者コミュニティへの利用拡大も予定されている。
Gemini 2.5 Flash Image で生成・編集された画像にはすべて不可視の SynthID デジタルウォーターマークが含まれており、AI 生成画像であることを識別できる。
Python サンプルコード
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
上記のコードは、プロンプトと画像を一緒に入力して Gemini 2.5 Flash Image で結果を生成する例を示している。
開発者フィードバックと今後の計画
Google は長文テキストのレンダリング、キャラクターの一貫性の高度化、実際の写実性やディテールの改善に引き続き注力する予定。フィードバックは開発者フォーラムと X(旧 Twitter)で受け付けており、さまざまな開発者による活用が期待されている。
1件のコメント
Hacker Newsの意見
これはまさに画像編集モデル分野におけるGPT-4の瞬間だと感じる
Nano bananaと呼ばれているGemini 2.5 Flashは信じられないほど優秀
lmarenaでなんと171 eloポイント上昇を記録した
Twitterでnano bananaを検索するとすごい結果がたくさん見られる
例としてはこのツイートを参照
数週間にわたって自分でテストしてみた
本当に印象的な結果が出ることもあるが、欲しい画像を得るにはプロンプトを何度も繰り返し試す必要がある
万能ではないが、間違いなく大きな進歩であり、現存する最高水準だ
3つ目の例では手の表現がおかしい点がある
どの向きに置くかをモデルが決めきれていないように見える
ただしこれはgeminiが作った問題ではなく、元画像にあった問題だ
"nano banana"に関するあらゆる組み合わせが、独自UIを持つドメインとして登録されているように見える
人気のあるモデル名を利用する中間マージン業者が、creditの差益を狙っているのではないかと気になる
AIが登場する前は、Googleが世界トップクラスのエンジニア人材を広告販売にしか使っていないと批判されることが多かった
しかしAI時代が到来し、その人材は今や製品配置広告に活用できるようになった
本当に遠くまで来たものだ
もう一つ惜しいのは、ピンク色のパディングジャンパーの編集結果が参照画像と微妙に違うこと
商品プロモーション用にこのモデルを使ったり、細部に敏感だったりするなら不満が出るかもしれない
GenAI画像比較サイトを更新した
このサイトはテキストから画像へのプロンプト遵守に厳密に焦点を当てている
新しいGoogle Gemini 2.5 Flashモデル(nano-banana)も反映した
モデルは12個のプロンプトのうち8個を正確に満たし、トップモデルであるImagenおよびgpt-image-1にかなり近い結果を出した
以前のGemini Flash 2.0と比べて大きなアップグレードだ
1位のgpt-image-1は迷路と9角星でのみわずかに上回った
gpt-image-1がほぼ6か月間トップを守ってきたことが最も驚くべき事実だ(この分野では6か月はほとんど永遠に等しい)
ただしgpt-image-1は「エディタ」としてはほとんど役に立たない。画像全体を変えてしまい、Kontext、Qwen、Nano-Bananaのようなインペインティング(一部のみ修正)方式ではない
OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana などの比較リンク
文編集ベンチマークが別途必要だと感じる
なぜHunyuan、OpenAI 4o、Gwenがタコのテストで合格扱いなのかよく分からない
「各触手」をすべてカバーしていない
Midjourneyは靴下人形を8本の腕に9個も履かせている
Imagen 4とGemini 2.5 Flashの画像結果が一部のテストケースであまりにも似て見えるのが興味深い
おそらくGemini 2.5 FlashはバックグラウンドでまずImagen(拡散モデル)でベースライン画像を作り、その上にGemini側でプロンプト遵守のための編集を加えているのかもしれない
このサイトが本当に気に入った
もしかして、さまざまなモデルがスタイルガイド(同一スタイルで描かれたイラストなど)をどれだけよく守れるか比較するサイトを知っているだろうか?
個人的には、こういう機能をサイトに追加してくれるとうれしい
たとえばある作家のスタイルで複数の絵を提示したうえで、同じスタイルでイラストを作れるか比較したい
本の挿絵など、一貫したスタイルが必要な場面ではとても有用だと思う
Gemini 2.5 Flash Imageだけが、変な裏技なしで複数画像を一度に扱える唯一のものだ
たとえばFlux Kontextでは「1枚目の画像を2枚目の画像に合成」するには、面倒でも事前に画像を結合しておく必要がある
しかしこのモデルはそんな不便なしに使え、しかも2枚以上の画像も入力できる(もちろん多すぎると混乱するかもしれないが)
簡単に試した限りでは、長いプロンプトでも遵守度が高く、構文的な表現がより効果的に機能するように見える
まだ明らかになっていない、より多くの制御方法もありそうで実験を続けている
価格も競合モデルと似ており、市場に大きな変化をもたらすと期待している
隣の家の人が休暇中なので魚の餌をやっている
水槽の写真を撮ってGeminiに「街の名所に水槽を置く」というプロンプトで生成している
毎日1枚ずつ送ると、その人がとても喜んでくれる
こういう小さないたずらが、お互いの日常に笑いを加えてくれる
残念ながら、他のAI製品と同様に安全ポリシーが厳しすぎる問題がある
プロンプトの半分が拒否される
人間の編集が不可能なら、キャラクターの一貫性をどう保てるのか疑問だ
私はたいてい人を含む写真を編集したいのだが、このモデルでは不可能だ
Googleがディープフェイク問題を意識しているのは理解できるが、どうせこの流れは止められず、最終的には社会が適応する運命だ
ツールがますますユーザーを制限する方向に進んでいるのがもどかしい
結局、自由を取り戻すための新しいOSS運動が必要だと思う
子どものころ、クリスマスの服を着て一緒に写った恋人と彼女のいとこの写真が1枚ある
二人は長い間離れて暮らしていて、今では大切な思い出だ
写真自体の状態が悪いだけでなく、画質も低い
それなのに、今までどのAIモデルもこれを復元してくれない
2日前にVeoを無料で使って動画制作を試した
何でもない単語まで全部消したのに、それでも拒否された
おそらく「自分自身」を生成しようとしたのが問題だったようで、結局あきらめた
家族写真をデジタル化したが、色かぶり、シミ、指紋、フィルムの汚れなど復元が難しい損傷が多い
何百枚も一枚ずつ直すのは難しいので、AIベースの画像生成が細部のディテール(特に顔)を変えずに大量復元できるほど進歩するのを待っていた
このモデルはディテールを保ちながら失われた部分だけを復元するのがかなり得意に見えるので、今こそ試す時が来た気がする
上で挙げたような損傷はすべて、ICE機能付きのフィルムスキャナと自動修復ソフトウェア(Vuescanなど)で自動的に直せる
何百枚、何千枚もの写真を実験的で独占的なクラウドAIにアップロードして、妙な圧縮やアーティファクトが混じった品質不足の結果だけを受け取る必要はないと思う
こういう使い方の意味がよく分からない
損傷のない写真を想像するだけでいいのではないか?
スマホカメラのAIアップスケーリングも同じだ
遠くの何かを見たければ、ただ想像すればいい
結局、AIツールにはPhotoshopの熟練者が手作業でツールを使ってできることを自動化するレベルが必要だと思う
新しいディテールを勝手に生成するのは時間の無駄に感じる
動画ファイルを復元・改善してくれるソフトウェアを知っているか気になる
母の2000年代のビデオやVHSカセットをデジタル化しているところだ
デジタル化のセットアップはすでに整っているが、映像の画質をさらに向上させたい
うまく使われることを願う
例の「写真復元」プロンプトの結果を見ると、女性の顔にAIっぽさが強く出ている
もちろん、時間がたてばもっと改善されることを期待している
数か月前にすでにFlux Kontext(https://bfl.ai/models/flux-kontext)でその段階に達していたと思う
Gemini 2.5 Flash Imageで生成・編集したすべての画像には、SynthIDという不可視のデジタルウォーターマークが埋め込まれ、AI生成・編集であることを示すようになる
目的と善意は理解できるが、今では大人が自分で責任を持つのではなく、大企業が何をしてよくて何をしてはいけないかを決める状況になっているのが残念だ
監視されているように感じる
人間は技術を使うとき、本当に責任ある大人だったことがあったのかと聞き返したい
ディープフェイクはすでに現実認識の不安をさらに悪化させる可能性が高い
数多くの偽物にだまされる人も、もう何も信じなくなる人も出てくるだろう
政治家たちは自分に不利な映像が出てきたとき、「偽物だ」と主張するだろう
すでにある程度ポスト・トゥルース時代を生きているが、これからは状況がさらに深刻になるだろう
実質的にはユーザーが作った画像とは言い難い
たとえば芸術家が依頼作品にウォーターマークを入れるとしても、それは自分の作品だと示しているだけで、それを「密告」と見ることはできない
必ずしもそういう意図で言ったのではないかもしれないが、一度考えてみる価値はあると思う
「隠すものがなければ恐れるものもない」という理屈には同意しないが、AI生成・編集画像のウォーターマークがなぜ問題になるのかは気になる
ちなみに個人的には、AI画像にはウォーターマークが必須だと思っている
このモデルを必ず使わなければならないわけでもないので、個人的には問題だとは思わない
技術の軍拡競争だ
removemysynthid.com参照
ほとんどの画像生成器と同じく、ピアノ鍵盤テストに失敗する(黒鍵がおかしい)
テスト例
ピアノ鍵盤テストとは何なのか気になる
リンク先はAI StudioでGoogle Driveへのアクセス権を求めるので使いづらいと感じる
概念空間にアイデア(たとえば8音の反復など)まで含めているモデルがあるのか気になる
ピアノを表現するとき、「ピアノ」という単語の近くにある単語だけでは固定された概念(たとえば反復するオクターブ)を表すには弱く、その点が不足しているように思える
単語だけでは画像と意味を一貫して結び付けるのは難しい気がする
このモデルの本当の強みは生成品質そのものより、「世代間の一貫性」にあるようだ
例のリンク
興味深い
実際のピアノに触れたことがある人ならすぐ違和感に気づくくらい、テキストレンダリングテストと似たように「見た目だけは」似た画像を出しているが、実際には間違っているケースだ
一般的なプロンプトなら、Google画像検索の1件目を持ってきて「はい、ピアノキーボードの写真です」と言われても無難に受け入れてしまいそうだ
自分の水平テキストテストでも失敗した
フォーク/スパゲッティ、ファッションバブルの例を自分で再現しようとしたが、公式結果とはかなり違った
出力結果自体はやはり一貫している
広告ページの画像をコピーして使ったので解像度が違う可能性はあるが、プロンプトは同じものを使った
使っているのが新しいモデルであることは間違いなさそうで、以前と比べれば本当に大きな進歩だ
結果の一貫性が興味深い
自分用の画像モデル標準テストとして何世代も回してみたが(いまだにピアノのオクターブを正しく描けるモデルは一つも見たことがない)、Gemini 2.5 Flash Imageも例外ではなかった
何度やっても結果を比べるとまったく変化がない
ChatGPTはエディタ用プロンプトを与えると、望んだ変更以外の部分まで変わることが多かったが、こちらではそうした変化がまったくない
画像の例
広告で見せているものより、実際の結果はずっと平凡か曖昧に見える
例のバブル被写体生成も、単に被写体の中に曖昧な泡のような形を作るだけだ
フォークの例では、麺の上にフォークが追加されるだけ
どちらのケースも実際にはプロンプトにより忠実だとも言えるが、見た目としてはあまり印象的ではない
Photoshopの専門家にならなくてよかったと感じる
一時は魅力を感じたこともあったが、結局その道を選ばなくてよかった
もうnano-banana一つで十分だ
他のモデルもすぐ追随すると確信している
r/photoshopbattlesコミュニティも、もうさようならだ
レタッチは一つの芸術だ
専門家にとって、こうしたAIも効率を上げるための別の道具にすぎない
Photoshopを使えることそのものではなく、賢い判断力が重要だ
もちろん仕事量が増えないなら、同じ業務をより少ないレタッチャーでこなすことになるかもしれない
単価が下がれば、みんながもっと多くレタッチするようになるだろうか? それは分からない
興味深い意見だ
私はプログラマーだが、2000年代初頭にはPhotoshopも学んでいて、画像編集を本当に楽しんでいた
今の生成モデルは当時自分が作っていたものよりはるかに良い結果を出すが、この経験とスキルがまったく無意味だとは思わない
実際、AIの結果を整えるのにPhotoshop(あるいは最近ならAffinity Designer/Photo)は非常に役立つ
後悔したことはない
10年前にこのコメントを書いていたなら、少なくともプログラムとスキルは自分のもので、Googleがサブスク料金を上げたりサービスを終了したりしても失われなかったはずだと言っていただろう
今ではPSもサブスク制で、まともな公開モデルが出る日を待たなければならない
Photoshopは今でも有用だ
AI画像は素晴らしいが、ベースの構図は自分で作りたいし、AI結果のアーティファクト除去や複数のAIレイヤーの合成には、今でも手作業のスキルが不可欠だ
結局、プログラミングなど他の分野も自動化によって崩される運命にある
ただ少し時間がかかるだけだ(5〜10年?)
エンジニアリングはミスや技術的負債のせいで、もっと時間がかかるかもしれない
画像は失敗しても出し直せば済むが、プログラムは失敗するとその直後から保守不能なコードの塊になる
しかし、いつかはこの流れが私たちの分野にも来るだろう
Geminiに画像生成を頼むと半分はできないという返事が来る
Googleの機能は実際に使ってみるのがあまりにも難しい感じがする
あるものは一つの製品に、別のものはまた別の製品に散らばっていて、どこからアクセスすればいいのかも混乱する
その通りだ
Webサイトでは「Geminiで試してください」と案内されるのに、実際にGemini 2.5 Flashを選ぶと、自分がこれを正しく使えているのかどうかさえ分からなくなる
Geminiアプリやサイトにはそのモデル自体がない
AI Studioなど別の経路で使わなければならない
Google側のUI/UXは全体的に本当に分かりにくい