Nano Bananaは精緻なプロンプトエンジニアリングで高精度なAI画像生成が可能

(minimaxir.com)

10 ポイント投稿者 GN⁺ 2025-11-14 | 1件のコメント | WhatsAppで共有

Nano Banana は Google の Gemini 2.5 Flash Image モデルで、テキストプロンプトを細かく解釈し、複雑な画像構成を正確に実装する 自己回帰型画像生成モデル
強力なテキストエンコーダ により、具体的なルール、カラーコード、JSON・HTMLベースの入力まで忠実に反映し、プロンプト遵守性能 が非常に高い
ChatGPT の gpt-image-1 より安価で、API を通じて開発者が直接画像生成アプリを構築でき、Python パッケージ gemimg で手軽に利用可能
複雑な編集・合成・コード・Webページレンダリング など多様な実験で高い精度と一貫性を示した一方、スタイル変換とテキストレンダリング には限界がある
AI画像生成の精密制御の可能性 を示しており、今後の プロンプトベースのビジュアルエンジニアリング の新たな基準として注目されている

AI画像生成モデルの変化とNano Bananaの登場

最近のAI画像生成分野では FLUX.1-dev、Seedream、Ideogram、Qwen-Image、Imagen 4 など多様なモデルが登場したが、2025年3月には ChatGPT の無料画像生成機能 が大衆の認識を主導した
ChatGPT の画像は 黄色がかったトーンと一定の線画・タイポグラフィ により容易に識別できる
ChatGPT の基盤モデル gpt-image-1 は 自己回帰型構造 で、トークン単位で画像を生成し、高品質な画像1枚あたり約30秒を要する
2025年8月、LMArena に「** nano-banana**」というコードネームのモデルが登場し、その後 Google がこれを Gemini 2.5 Flash Image として公開した
- 1,290トークンで画像を生成し、Gemini アプリの人気上昇 により「Nano Banana」という名称が公式の別名として定着した

Nano Bananaの画像生成とAPI活用

Nano Banana は Gemini のWeb/モバイルアプリ の「Create Image 🍌」機能や Google AI Studio で無料で画像生成できる
- AI Studio では アスペクト比設定など詳細パラメータの調整 をサポート
- 生成された画像には 右下のウォーターマーク が表示される
開発者は Gemini API の gemini-2.5-flash-image エンドポイント を通じてプログラムから画像生成できる
- 1MP画像あたり約 $0.04 で、ChatGPT の $0.17 より安い
API 利用の複雑さを減らすために作られた Python パッケージ gemimg では、簡単なプロンプトで画像生成できる
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```
広告

プロンプト遵守テスト: スカルパンケーキと画像編集

「頭蓋骨型のパンケーキにブルーベリーとメープルシロップを載せた画像」というプロンプトを正確に実装
- シロップの流れ、パンケーキの質感、ブルーベリーの位置など細部まで忠実
続いて同じ画像に 5つの同時編集命令（イチゴ・ブラックベリー追加、ミントの飾り、皿の交換、背景人物の追加）を実行
- すべての修正が正確に反映され、不要な部分の変更は最小限だった

人物一貫性テスト: Ugly Sonicとオバマの握手

Nano Banana は LoRA 学習なしでも特定人物の一貫性維持 が可能
「Ugly Sonic がバラク・オバマと握手する画像」というプロンプトで、実際に両者が一緒に登場
- その後「Pulitzer-prize-winning New York Times cover photo」という文言を追加すると、構図・色味・照明の品質が向上
- 「テキストを除外」という命令で不要な要素を削除できる
17枚の Ugly Sonic 画像を同時に入力すると、より正確な外見の再現 を達成

Gemini 2.5 FlashとNano Bananaの関連性

Nano Banana は Gemini 2.5 Flash のマルチモーダルエンコーダ拡張版 であり、
- Markdown・JSON 学習、オブジェクト認識とセグメンテーションマスク生成 の能力を持つ
- CLIP（77トークン） や T5（512トークン） よりはるかに長い 32,768トークンのコンテキストウィンドウ をサポート
広告
複雑なルールベースのプロンプト（例: 3匹の猫の色・衣装・照明・構図条件）を完璧に満たした
- ChatGPT は同じプロンプトで色や構図の誤りが発生

コード・テキスト生成実験

「冷蔵庫マグネットで構成された Python の Fibonacci コード画像」というプロンプトでは
- Nano Banana はコード構造を部分的に再現し、構文強調の色も一部反映した
- ChatGPT も類似の試みをしたが、品質差は明確だった
「前のテキストをマグネットで表示せよ」という実験では、Nano Banana の システムプロンプトの一部が露出
- 内部ルールの中に「buzzword の使用禁止」条項があることを確認
- 大文字（MUST）を使うと プロンプト遵守率が向上 することも確認された

大規模プロンプト処理: HTML・JSON入力

Nano Banana は HTML/CSS/JS コード全体をレンダリング してWebページ画像を生成
- レイアウト・色は正確だが、一部にテキストや比率の誤りがある
広告
JSON ベースの人物描写 を入力すると、Paladin/Pirate/Barista の混成キャラクターを可視化
- 衣装・小道具・ポーズなど大半が JSON フィールドと一致
- 「実写撮影条件」を追加すると フォトリアリズムが向上 し、反射光や奥行き感も表現された

Nano Bananaの限界と問題点

「Make me into Studio Ghibli」というプロンプトでは スタイル変換に失敗 し、
- 自己回帰特性のため スタイル変化への抵抗性 がある
著作権上の制限がほとんどなく、複数のIPキャラクターを1つの場面に同時生成できる
- 例: マリオ、ミッキーマウス、ピカチュウ、オプティマスプライムなどが1つのクラブに登場
NSFW コンテンツ生成の可能性 があり、検閲は緩い
テキストレンダリングの不完全さ、スタイル変換の弱さ など技術的制約は依然として残る

結論と意義

Nano Banana は 精密なプロンプトエンジニアリングによって高品質な画像制御 が可能なモデル
HTML・JSON・複合ルールベース入力 まで解釈でき、AI画像生成の新たな実験プラットフォーム として台頭
ChatGPT 中心の大衆認識 を超えて、AI画像生成の実際の可能性と限界 を検証する事例
筆者はすべての実験プロンプトと Jupyter Notebook を公開し、再現性と透明性 を確保
Nano Banana は プロンプト中心のビジュアルエンジニアリング時代の転換点 を示す事例として評価されている

1件のコメント

GN⁺ 2025-11-14

Hacker Newsの意見

私はストーリーボード用に毎日何十枚もの画像を生成している
出力制御がどんどん簡単になってきており、シーンごとにキャラクターや照明、時間帯まで一貫して保てるようになった
環境・カメラ・被写体・構図・照明・色・品質という7段階のプロンプトレイヤーを使っていて、やややりすぎだが実験中だ
また、画像に直接bounding boxを描いて修正できる簡単な編集ツールを作り、Claudeに画像を送って修正用プロンプトを自動生成させている
この工程によって、シーン間のつながりが自然なGenAI動画生成パイプラインを構築できた
- 私たちのチームも同様にnano bananaを使ってストーリーボードを作り、img2vidモデルでフルモーション動画を制作している
  キャラクター・背景・スタイルの一貫性を保つよう努めており、あなたの作業とかなり似ている
  参考までに、私たちの製品 Hypernatural.ai も見てみるとよいかもしれない
- 私は逆に、一度結果が意図から外れると、再び元の意図に戻すのはほぼ不可能だと感じる
私は gemimg Pythonライブラリが好きだ
ここにGemini CLIを追加してPRを送り、以下のように実行できる
結果はこのコメントにある
- @simonwに気になることがある — gemini-cliターミナルセッションのgistプレビューはどうやって作ったのか？
  このリンクのようにHTML/CSSで直接作ったのか、それともamp-codeのような自動化ツールがあるのか気になる
- pyproject.tomlにproject.scripts項目を追加しなかったのは何か理由があるのだろうか
  そうすればuvでCLIをすぐにインストールできそうだ
- 投稿者は冒頭でオープンソースを強調していたが、QwenEditエコシステムも扱うのか気になる
  中国の編集モデルはますますNanoBanana級に近づいており、オープンソースなのでマスク・カーネルベースの高度な画像操作が可能だ
  LoRAでスタイル転送もでき、クローズドな米国モデルよりずっと面白い
  Nano Bananaの学習データを抽出して新しいモデルに**蒸留(distill)**するのも容易になりそうだ
minimaxirの記事を興味深く読んだ
Nano Bananaの32,768トークンのコンテキストウィンドウのおかげで、複雑な画像生成パイプラインではMistral 7Bを途中に挟み、プロンプトの変形を4種類作って使っている
スタイル転送が弱いという点は事実だが、2枚の画像を一緒に渡すと少し良い結果が出る
1枚目を変換対象、2枚目をスタイル参照画像として使う方法だ
私のポートフォリオの例でもこのアプローチを使っている
- おそらく以前の「make me Ghibli」トレンド以降、Studio Ghibliスタイルを防ぐための明示的な制限なのかもしれない
2枚目のガイコツのパンケーキ画像で面白いミスを見つけた
イチゴが右の眼窩（画像では左側）にあり、ブラックベリーが反対側にある
多くの画像説明が観察者視点で書かれるために起きた問題に見える
- 私も人間ならNano Bananaのようにしたと思う
  もしユーザーがガイコツの左目にイチゴを入れてほしかったなら、「その左目」と明記すべきだった
- 多くの人は「左目」が被写体基準なのかカメラ基準なのかで混乱しそうだ
- 私もこの点を見落としていたが、その後キャラクターJSONで同じ問題を指摘した
  そこでプロンプトに「左右はキャラクターの視点基準」と明記したところ、成功率が上がった
- 私も同じ考えだった
  投稿者はNano Bananaがすべての編集を正確に行ったと言っていたが、この点には議論の余地がある
  ガイコツの「右目」はガイコツの視点で解釈するのが妥当だと思う
Google AI Studioにリクエストを送り、ウォーターマーク除去はブラウザの開発者ツールで「watermark_4」リクエストをブロックすればよい
その後に生成される画像からはウォーターマークが消える
「Nano Bananaはスタイル転送に弱い」という文を見て驚いた
私は自分の近所を18世紀の風景として可視化するプロジェクトをしている
SketchUpとTwinmotionでモデリングしたが、本物らしい画像にするのは難しかった
さまざまなAI画像生成器を使ったが、Nano Bananaは初めて幾何学的一貫性を保ちながら新しいスタイルを適用してくれた
「この絵を写真のようにして」といった簡単なプロンプトで驚くほどの結果が得られた
ただし18世紀という単語を直接入れると絵画風になってしまうこともあるので、「保存された歴史的街並みの写真」のように迂回して表現している
依然として手作業のモデリングは並行しているが、Nano Bananaのおかげで私のモデリング手法は変わった
- ただし芸術的な画像をスタイル参照として与えると、Nano Bananaは学習範囲を外れてうまく一般化できない
「prompt engineered」という表現は、結局のところ見たいものを自分で入力するということだ
- だがそれは本物のスキル(skill)だ
  多くの問題は、人々が自分の望むものを明確に表現できないことで生じる
  プロンプトエンジニアリングはコミュニケーションの複雑さを扱う技術であり、言葉と意味の隔たりを意識させてくれる
- モデルによっては特定のプロンプトを理解できない場合もある
- 私たちは今やLLMとの相互作用を自然言語インターフェースとして理解するようになった
  プログラミング言語とは異なる曖昧なインターフェースであり、プロンプトエンジニアリングはそれを扱う新しい技術だ
- 結局は望む結果を得るためにプロンプトを繰り返し修正する過程だ
- 昔はこういうのを「Google Fu」と呼んでいた
私は実写版となりのトトロの場面を頼んでみた
Sonicのように実写化が難しいキャラクターなので結果が気になったが、フォトリアリズムではなくデジタルアート風の画像しか出なかった
キーワードを変えても同じで、ChatGPTでは著作権フィルターのためテストすらできなかった
それでも試み自体は興味深かった
Nano Bananaは時々編集への反応が鈍い
人物写真をクレイアニメ風に変えてくれと頼んだが、ほとんど変化がなかった
ところが「10年若くして」と追加したら、突然クレイ人形のように変わった
- それはスタイル転送の要求なので、Ghibliの例のように失敗して当然だ
私の経験ではnano bananaは今でも
- 画像にランダムな修正を加えたり
- スケールを変えたり
- 細かいが全体に及ぶディテール変化を起こしたりする
  たとえば、何の指示もないのに部屋に暖炉やガレージを追加することもある
  温度を0に設定してもこうしたことが起きるので、信頼できるアプリを作るのが難しい
  もっと良い体験をした人がいるのか気になる
- 「ALL CAPS」の部分が興味深い
  大文字はトークナイズのされ方が異なるため、モデルが理解しづらい入力になる可能性がある
- 私は PixLabエディタを開発中だが、これは大文字の命令を正確にそのまま従う

Nano Bananaは精緻なプロンプトエンジニアリングで高精度なAI画像生成が可能

AI画像生成モデルの変化とNano Bananaの登場

Nano Bananaの画像生成とAPI活用

プロンプト遵守テスト: スカルパンケーキと画像編集

人物一貫性テスト: Ugly Sonicとオバマの握手

Gemini 2.5 FlashとNano Bananaの関連性

コード・テキスト生成実験

大規模プロンプト処理: HTML・JSON入力

Nano Bananaの限界と問題点

結論と意義

関連記事

1件のコメント

Hacker Newsの意見