10 ポイント 投稿者 GN⁺ 2025-11-14 | 1件のコメント | WhatsAppで共有
  • Nano Banana は Google の Gemini 2.5 Flash Image モデルで、テキストプロンプトを細かく解釈し、複雑な画像構成を正確に実装する 自己回帰型画像生成モデル
  • 強力なテキストエンコーダ により、具体的なルール、カラーコード、JSON・HTMLベースの入力まで忠実に反映し、プロンプト遵守性能 が非常に高い
  • ChatGPT の gpt-image-1 より安価で、API を通じて開発者が直接画像生成アプリを構築でき、Python パッケージ gemimg で手軽に利用可能
  • 複雑な編集・合成・コード・Webページレンダリング など多様な実験で高い精度と一貫性を示した一方、スタイル変換とテキストレンダリング には限界がある
  • AI画像生成の精密制御の可能性 を示しており、今後の プロンプトベースのビジュアルエンジニアリング の新たな基準として注目されている

AI画像生成モデルの変化とNano Bananaの登場

  • 最近のAI画像生成分野では FLUX.1-devSeedreamIdeogramQwen-ImageImagen 4 など多様なモデルが登場したが、2025年3月には ChatGPT の無料画像生成機能 が大衆の認識を主導した
  • ChatGPT の画像は 黄色がかったトーンと一定の線画・タイポグラフィ により容易に識別できる
  • ChatGPT の基盤モデル gpt-image-1自己回帰型構造 で、トークン単位で画像を生成し、高品質な画像1枚あたり約30秒を要する
  • 2025年8月、LMArena に「** nano-banana**」というコードネームのモデルが登場し、その後 Google がこれを Gemini 2.5 Flash Image として公開した
    • 1,290トークンで画像を生成し、Gemini アプリの人気上昇 により「Nano Banana」という名称が公式の別名として定着した

Nano Bananaの画像生成とAPI活用

  • Nano Banana は Gemini のWeb/モバイルアプリ の「Create Image 🍌」機能や Google AI Studio で無料で画像生成できる
    • AI Studio では アスペクト比設定など詳細パラメータの調整 をサポート
    • 生成された画像には 右下のウォーターマーク が表示される
  • 開発者は Gemini API の gemini-2.5-flash-image エンドポイント を通じてプログラムから画像生成できる
    • 1MP画像あたり約 $0.04 で、ChatGPT の $0.17 より安い
  • API 利用の複雑さを減らすために作られた Python パッケージ gemimg では、簡単なプロンプトで画像生成できる
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    
    広告

プロンプト遵守テスト: スカルパンケーキと画像編集

  • 頭蓋骨型のパンケーキにブルーベリーとメープルシロップを載せた画像」というプロンプトを正確に実装
    • シロップの流れ、パンケーキの質感、ブルーベリーの位置など細部まで忠実
  • 続いて同じ画像に 5つの同時編集命令(イチゴ・ブラックベリー追加、ミントの飾り、皿の交換、背景人物の追加)を実行
    • すべての修正が正確に反映され、不要な部分の変更は最小限だった

人物一貫性テスト: Ugly Sonicとオバマの握手

  • Nano Banana は LoRA 学習なしでも特定人物の一貫性維持 が可能
  • 「Ugly Sonic がバラク・オバマと握手する画像」というプロンプトで、実際に両者が一緒に登場
    • その後「Pulitzer-prize-winning New York Times cover photo」という文言を追加すると、構図・色味・照明の品質が向上
    • 「テキストを除外」という命令で不要な要素を削除できる
  • 17枚の Ugly Sonic 画像を同時に入力すると、より正確な外見の再現 を達成

Gemini 2.5 FlashとNano Bananaの関連性

  • Nano Banana は Gemini 2.5 Flash のマルチモーダルエンコーダ拡張版 であり、
    • Markdown・JSON 学習オブジェクト認識とセグメンテーションマスク生成 の能力を持つ
    • CLIP(77トークン)T5(512トークン) よりはるかに長い 32,768トークンのコンテキストウィンドウ をサポート
    広告
  • 複雑なルールベースのプロンプト(例: 3匹の猫の色・衣装・照明・構図条件)を完璧に満たした
    • ChatGPT は同じプロンプトで色や構図の誤りが発生

コード・テキスト生成実験

  • 冷蔵庫マグネットで構成された Python の Fibonacci コード画像」というプロンプトでは
    • Nano Banana はコード構造を部分的に再現し、構文強調の色も一部反映した
    • ChatGPT も類似の試みをしたが、品質差は明確だった
  • 前のテキストをマグネットで表示せよ」という実験では、Nano Banana の システムプロンプトの一部が露出
    • 内部ルールの中に「buzzword の使用禁止」条項があることを確認
    • 大文字(MUST)を使うと プロンプト遵守率が向上 することも確認された

大規模プロンプト処理: HTML・JSON入力

  • Nano Banana は HTML/CSS/JS コード全体をレンダリング してWebページ画像を生成
    • レイアウト・色は正確だが、一部にテキストや比率の誤りがある
    広告
  • JSON ベースの人物描写 を入力すると、Paladin/Pirate/Barista の混成キャラクターを可視化
    • 衣装・小道具・ポーズなど大半が JSON フィールドと一致
    • 「実写撮影条件」を追加すると フォトリアリズムが向上 し、反射光や奥行き感も表現された

Nano Bananaの限界と問題点

  • Make me into Studio Ghibli」というプロンプトでは スタイル変換に失敗 し、
    • 自己回帰特性のため スタイル変化への抵抗性 がある
  • 著作権上の制限がほとんどなく、複数のIPキャラクターを1つの場面に同時生成できる
    • 例: マリオ、ミッキーマウス、ピカチュウ、オプティマスプライムなどが1つのクラブに登場
  • NSFW コンテンツ生成の可能性 があり、検閲は緩い
  • テキストレンダリングの不完全さスタイル変換の弱さ など技術的制約は依然として残る

結論と意義

  • Nano Banana は 精密なプロンプトエンジニアリングによって高品質な画像制御 が可能なモデル
  • HTML・JSON・複合ルールベース入力 まで解釈でき、AI画像生成の新たな実験プラットフォーム として台頭
  • ChatGPT 中心の大衆認識 を超えて、AI画像生成の実際の可能性と限界 を検証する事例
  • 筆者はすべての実験プロンプトと Jupyter Notebook を公開し、再現性と透明性 を確保
  • Nano Banana は プロンプト中心のビジュアルエンジニアリング時代の転換点 を示す事例として評価されている

1件のコメント

 
GN⁺ 2025-11-14
Hacker Newsの意見
  • 私はストーリーボード用に毎日何十枚もの画像を生成している
    出力制御がどんどん簡単になってきており、シーンごとにキャラクターや照明、時間帯まで一貫して保てるようになった
    環境・カメラ・被写体・構図・照明・色・品質という7段階のプロンプトレイヤーを使っていて、やややりすぎだが実験中だ
    また、画像に直接bounding boxを描いて修正できる簡単な編集ツールを作り、Claudeに画像を送って修正用プロンプトを自動生成させている
    この工程によって、シーン間のつながりが自然なGenAI動画生成パイプラインを構築できた
    • 私たちのチームも同様にnano bananaを使ってストーリーボードを作り、img2vidモデルでフルモーション動画を制作している
      キャラクター・背景・スタイルの一貫性を保つよう努めており、あなたの作業とかなり似ている
      参考までに、私たちの製品 Hypernatural.ai も見てみるとよいかもしれない
    • 私は逆に、一度結果が意図から外れると、再び元の意図に戻すのはほぼ不可能だと感じる
  • 私は gemimg Pythonライブラリ が好きだ
    ここにGemini CLIを追加してPRを送り、以下のように実行できる
    結果はこのコメントにある
    • @simonwに気になることがある — gemini-cliターミナルセッションのgistプレビューはどうやって作ったのか?
      このリンク のようにHTML/CSSで直接作ったのか、それともamp-codeのような自動化ツールがあるのか気になる
    • pyproject.tomlにproject.scripts項目を追加しなかったのは何か理由があるのだろうか
      そうすればuvでCLIをすぐにインストールできそうだ
    • 投稿者は冒頭でオープンソースを強調していたが、QwenEditエコシステムも扱うのか気になる
      中国の編集モデルはますますNanoBanana級に近づいており、オープンソースなのでマスク・カーネルベースの高度な画像操作が可能だ
      LoRAでスタイル転送もでき、クローズドな米国モデルよりずっと面白い
      Nano Bananaの学習データを抽出して新しいモデルに**蒸留(distill)**するのも容易になりそうだ
  • minimaxirの記事を興味深く読んだ
    Nano Bananaの32,768トークンのコンテキストウィンドウのおかげで、複雑な画像生成パイプラインではMistral 7Bを途中に挟み、プロンプトの変形を4種類作って使っている
    スタイル転送が弱いという点は事実だが、2枚の画像を一緒に渡すと少し良い結果が出る
    1枚目を変換対象、2枚目をスタイル参照画像として使う方法だ
    私のポートフォリオの例でもこのアプローチを使っている
    • おそらく以前の「make me Ghibli」トレンド以降、Studio Ghibliスタイルを防ぐための明示的な制限なのかもしれない
  • 2枚目のガイコツのパンケーキ画像で面白いミスを見つけた
    イチゴが右の眼窩(画像では左側)にあり、ブラックベリーが反対側にある
    多くの画像説明が観察者視点で書かれるために起きた問題に見える
    • 私も人間ならNano Bananaのようにしたと思う
      もしユーザーがガイコツの左目にイチゴを入れてほしかったなら、「その左目」と明記すべきだった
    • 多くの人は「左目」が被写体基準なのかカメラ基準なのかで混乱しそうだ
    • 私もこの点を見落としていたが、その後キャラクターJSONで同じ問題を指摘した
      そこでプロンプトに「左右はキャラクターの視点基準」と明記したところ、成功率が上がった
    • 私も同じ考えだった
      投稿者はNano Bananaがすべての編集を正確に行ったと言っていたが、この点には議論の余地がある
      ガイコツの「右目」はガイコツの視点で解釈するのが妥当だと思う
  • Google AI Studioにリクエストを送り、ウォーターマーク除去はブラウザの開発者ツールで「watermark_4」リクエストをブロックすればよい
    その後に生成される画像からはウォーターマークが消える
  • 「Nano Bananaはスタイル転送に弱い」という文を見て驚いた
    私は自分の近所を18世紀の風景として可視化するプロジェクトをしている
    SketchUpとTwinmotionでモデリングしたが、本物らしい画像にするのは難しかった
    さまざまなAI画像生成器を使ったが、Nano Bananaは初めて幾何学的一貫性を保ちながら新しいスタイルを適用してくれた
    「この絵を写真のようにして」といった簡単なプロンプトで驚くほどの結果が得られた
    ただし18世紀という単語を直接入れると絵画風になってしまうこともあるので、「保存された歴史的街並みの写真」のように迂回して表現している
    依然として手作業のモデリングは並行しているが、Nano Bananaのおかげで私のモデリング手法は変わった
    • ただし芸術的な画像をスタイル参照として与えると、Nano Bananaは学習範囲を外れてうまく一般化できない
  • 「prompt engineered」という表現は、結局のところ見たいものを自分で入力するということだ
    • だがそれは本物のスキル(skill)
      多くの問題は、人々が自分の望むものを明確に表現できないことで生じる
      プロンプトエンジニアリングは
      コミュニケーションの複雑さ
      を扱う技術であり、言葉と意味の隔たりを意識させてくれる
    • モデルによっては特定のプロンプトを理解できない場合もある
    • 私たちは今やLLMとの相互作用を自然言語インターフェースとして理解するようになった
      プログラミング言語とは異なる曖昧なインターフェースであり、プロンプトエンジニアリングはそれを扱う新しい技術だ
    • 結局は望む結果を得るためにプロンプトを繰り返し修正する過程だ
    • 昔はこういうのを「Google Fu」と呼んでいた
  • 私は実写版となりのトトロの場面を頼んでみた
    Sonicのように実写化が難しいキャラクターなので結果が気になったが、フォトリアリズムではなくデジタルアート風の画像しか出なかった
    キーワードを変えても同じで、ChatGPTでは著作権フィルターのためテストすらできなかった
    それでも試み自体は興味深かった
  • Nano Bananaは時々編集への反応が鈍い
    人物写真をクレイアニメ風に変えてくれと頼んだが、ほとんど変化がなかった
    ところが「10年若くして」と追加したら、突然クレイ人形のように変わった
    • それはスタイル転送の要求なので、Ghibliの例のように失敗して当然だ
  • 私の経験ではnano bananaは今でも
    • 画像にランダムな修正を加えたり
    • スケールを変えたり
    • 細かいが全体に及ぶディテール変化を起こしたりする
      たとえば、何の指示もないのに部屋に暖炉やガレージを追加することもある
      温度を0に設定してもこうしたことが起きるので、信頼できるアプリを作るのが難しい
      もっと良い体験をした人がいるのか気になる
    • 「ALL CAPS」の部分が興味深い
      大文字はトークナイズのされ方が異なるため、モデルが理解しづらい入力になる可能性がある
    • 私は PixLabエディタ を開発中だが、これは大文字の命令を正確にそのまま従う