11 ポイント 投稿者 GN⁺ 2025-11-21 | 1件のコメント | WhatsAppで共有
  • Nano Banana ProGemini 3 ProをベースにしたGoogle DeepMindの最新画像生成・編集モデルで、視覚的なアイデアを精密に実現する機能を提供
  • テキストレンダリングの向上多言語対応により、ポスター、モックアップ、インフォグラフィックなどで読みやすい文言を画像内に直接挿入可能
  • 最大14枚の画像結合5人の人物の一貫性維持2K〜4K解像度対応などにより、高品質なビジュアルコンテンツ制作を支援
  • Google Ads、Workspace、Geminiアプリ、AI StudioなどさまざまなGoogle製品群に統合され、一般ユーザー、専門家、開発者のすべてが活用可能
  • SynthIDウォーターマークでAI生成画像の透明性を確保し、AIコンテンツ識別機能をGeminiアプリに直接提供

Nano Banana Pro 概要

  • Nano Banana Proは、Gemini 3 Proの推論能力と世界知識を活用して視覚情報を精緻に可視化するモデル
    • 以前のバージョンである**Nano Banana (Gemini 2.5 Flash Image)**に続いて登場したアップグレード版
    • アイデア立案、データ可視化、手書きノートの図式化など、さまざまなデザイン作業を支援

主な機能

  • 正確で文脈豊かなビジュアル資料の生成
    • Gemini 3の高度な推論機能により、教育向けインフォグラフィック、ダイアグラムなどの事実ベースのコンテンツを生成
    • Google Searchのリアルタイム情報と連携し、天気、スポーツ、レシピなどのリアルタイムデータを可視化可能
  • 多言語テキストレンダリング
    • 画像内テキストを正確で読みやすく表現し、複数言語への翻訳とローカライズが可能
    • 多様なフォント、質感、書体スタイルを活用でき、ポスターやブランドコンテンツ制作に適している
    広告
  • 高品質なビジュアル表現
    • 最大14枚の画像結合5人の人物の一貫性維持により、複雑な合成画像を制作
    • ローカル編集、カメラアングル調整、色補正、照明切り替えなど、細かな編集制御を提供
    • 2Kおよび4K解像度とさまざまなアスペクト比に対応し、印刷・デジタルプラットフォームの双方で利用可能

利用環境

  • 一般ユーザーおよび学生向け
    • Geminiアプリの「Create images」機能でNano Banana Proを利用可能
    • 無料ユーザーは生成回数に制限があり、その後は標準のNano Bananaに切り替わる
    • Google AI Plus、Pro、Ultraの購読者にはより高い生成上限を提供
  • プロフェッショナル向け
    • Google Adsの画像生成機能がNano Banana Proにアップグレード
    • Google WorkspaceSlidesVidsでも利用可能
  • 開発者および企業向け
    • Gemini APIGoogle AI StudioVertex AIAntigravityGemini Enterpriseなどで拡張サポート
  • クリエイター向け
    • Flowツールを通じて、映像制作者やマーケターがシーン単位で細かな制御を行える
    広告

AI生成画像の識別と透明性

  • すべてのNano Banana Pro生成画像にはSynthIDデジタルウォーターマークが埋め込まれ、出所を識別可能
    • Geminiアプリで画像をアップロードし、「Google AI生成かどうか」を直接確認可能
    • 無料およびProユーザーの画像には**可視ウォーターマーク(Gemini sparkle)**を追加
    • Ultra購読者およびAI Studio開発者ツールでは、ウォーターマークのないクリーンなキャンバスを提供
  • SynthIDは今後音声および動画コンテンツにも拡張予定

関連資料

  • Build with Nano Banana Pro: 開発者向けGemini 3 Pro Imageモデル紹介
  • Prompting Tips for Nano Banana Pro: 効果的なプロンプト作成ガイド
  • AI Image Verification in Gemini App: SynthIDベースの画像検証機能の説明

原文に追加情報なし

1件のコメント

 
GN⁺ 2025-11-21
Hacker Newsの意見
  • 今週のGoogleはまるで ゴジラのように 動き回っている感じだった
    初めてAI Studioにカードを登録してみたが、決済プロセスがあまりにも複雑だった
    すべての設定を終えても「permission denied」エラーが出続けた
    ここまでしてお金を払わないといけないなら、モデルがどれだけ良くても意味がない

    • ご不便をおかけして申し訳ありません
      アクセシビリティ向上のためにチームが懸命に改善を進めています
      決済まわりの摩擦を減らすため、AI Studio内蔵決済システムを準備中で、1月に全世界で提供開始予定とのことです
    • Google APIは全体的に参入障壁が高すぎる
      他のサービスはAPIキー1つで終わるのに、Googleはアカウント作成 → アプリ作成 → サービス有効化 → OAuthアプリ作成 → JSONダウンロードまで必要になる
    • 単にAPIだけ使いたいなら Fal.aiのNano-Banana-Pro を勧める
      登録手続きがはるかに簡単で、さまざまなAIモデルを提供している
    • 私も ClaudeOpenAI の有料プランを使っているが、Geminiは決済が難しすぎて試すことすら大変だ
      単純なテストのためにGCPプロジェクトを作るのはやりすぎだ
    • GoogleのAI製品向けにより良い 開発者フロントエンド を作るだけでもビジネスチャンスになるほど、不便さが大きい
  • Nano Banana Proですべての編集系プロンプトを再テストした
    SHRDLU、M&M Van Halen、Scorpio Streetのテストを通過した
    結果は こちらで確認可能
    NB Proは元のNBより明らかに性能が向上していた

    • キリン編集テストではSeedreamよりNB Proの結果のほうが良く見えたのに、評価は逆になっている
      テスト自体が適切ではなかったように思う
    • NB Proはキリンテストを通過しているべきだった
      結果は完璧ではないが、要求どおりには実行していた
    • ピサの斜塔テスト が興味深かった
      明確な知識が必要なプロンプトは通るが、単に傾いた物体をまっすぐにするのは依然として難しい
    • 各テストで元画像も常に一緒に表示すれば、比較しやすいと思う
      スライダーより元画像と結果の同時表示のほうが直感的だろう
    • サイトは本当に有用だ。テキストから画像のベンチマークもNB Proで実施する予定があるのか気になる
  • 数か月にわたって Nano Bananaのプロンプトエンジニアリング分析 を進めていたが、Googleが新バージョンを出してきた
    新モデルは gemimgパッケージ ですぐに動作する
    ただし価格が高いため、デフォルトモデルに設定するのは難しい
    ドキュメントによれば、モデルは 中間画像(Thinking段階) を最大2枚生成するという
    これがコスト上昇の原因かもしれない

    • 「左目にイチゴ、右目にブラックベリー」というプロンプト例が興味深かった
      モデルは観察者基準で左右を認識して誤配置してしまった
      このような 相対的指示の誤り は医療現場でもよくある問題だ
      関連例へのリンク
    • MaxのNano Bananaガイドは依然として有効だ
      NB Proでもほとんどのプロンプトがうまく機能する
      ガイドへのリンク
      私の実験結果 も共有する
    • 入力画像あたりのコストは $0.0011 で、$0.06 ではない
    • gemimg 0.3.2 をリリースし、NB Proでの画像エラーの大半が修正された
      「Studio Ghibli風変換」はChatGPTよりはるかに正確だ
      ただし、あまりに写実的な画像が 不気味の谷 に落ちることもある
    • gemimgラッパーは依然として有用だ
      技術変化に対応する 適応力のあるツール設計 の重要性を改めて実感した
  • 短いプロンプトで インフォグラフィック全体を生成 できる能力には驚かされる
    「Datasetteプロジェクトの動作方法」を依頼したところ、完成度の高い結果が得られた
    結果リンク

    • この機能はSaaSにおける イベント用フライヤー生成 機能を革新的に変えるかもしれない
      今はテキストを別途レンダリングしていたが、これからは一度に処理できそうだ
    • ピアノ鍵盤で 中央ハ を見つけることには失敗した
      結果画像 を参照
    • 情報がほとんどないプロジェクト(player.html)についてもインフォグラフィックをうまく生成した
      GitHubリンク
      Instagram向けの正方形フォーマットにも自動変換してくれる
    • Datasetteのインフォグラフィックが実際の動作方法と一致しているのか気になる
  • AI画像はもはや明白な アーティファクト を作らなくなったが、それでもスタイルのせいでAIっぽさは残っている
    特にインフォグラフィックは人間が作ったものと見分けがついた
    特定のデータセットが過剰代表されている結果に見える

    • 人間は微細な視覚的差異に非常に敏感だ
      平均値で学習されたモデルは「平均的な画像空間」を作り出す
      関連例 を見ると、微調整で現実的な結果も可能だ
    • 単なるデータの問題だけではない
      一部のモデルは意図的に スタイルを取り除いて 人工的な印象を与える
      オープンモデルはLoRAで細かな調整が可能だが、クローズドモデルでは難しい点が問題だ
    • ほとんどのモデルはWeb全体のデータを学習して 予測可能な平均的結果 を出す
      独創的な画像が欲しいなら、プロンプト自体がより創造的である必要がある
    • 依然として質感、比率、照明などに微妙な誤りが残る
      そのため画像 編集機能 が次の課題と見なされている
    • 人間のフィードバックで微調整されたモデルは「平均的な好み」を学習し、個性が失われる
      初期のモデルは品質は低かったが、より興味深い結果を出していた
  • SynthID は良い第一歩だが、ウォーターマークのないAIコンテンツを見分けられないという限界がある
    大手企業が標準化された識別子を導入すべきだ

    • 政府がウォーターマークを義務化するのは危険だと思う
      Photoshopにもそのような規制があったなら、創造性は大きく制限されていただろう
    • Appleはいずれ「Real Photos」のような機能を出してきそうだ
      実際のカメラで撮影した写真であることを証明し、iMessageで認証表示を付けるような形で
    • 企業がウォーターマークを適用する理由は データ再学習の管理 にある
      結局のところ、主要な商用モデルは基本的にウォーターマークを強制するようになるだろう
    • 標準識別子ができれば、それを除去するソフトウェアも現れるだろう
      終わりのない いたちごっこ になる
    • こうした問題を解決しようとする C2PAプロジェクト が存在する
  • 2Dアニメーターはまだ安心してよい
    スプライトシートを生成してみたが、フレームを単純に繰り返すだけで 自然な中間動作(interpolation) は作れなかった

  • 公式資料まとめ
    Developer Blog
    DeepMind Page
    Model Card PDF
    SynthID紹介

  • このモデルは初めて私の ピアノテスト を通過した画像生成モデルだ
    オクターブごとの黒鍵パターンを正確に繰り返していた
    以前のモデルは常に鍵盤配列を誤って表現していた

    • ただし、88鍵標準を外れると依然として誤りが多い
      特定の音を色付けしろという要求もランダムに処理してしまう
      ピアノは標準化された物体で学習データも多いはずなのに、理解が足りない
    • 繰り返しパターンを長期間維持するのは難しいことだ
      88鍵全体の一貫性を保ったのは印象的だった
  • いまやモデルは テキストを画像内に自然にレンダリング できる
    以前は不可能だった機能が、今では当たり前のように感じられる

    • 私も同意する。ただし アイコン生成 のように視覚とコードが重なる領域は依然として弱い
      曲線、間隔、バランスを整えるような繊細なデザインは、まだ人間が直接やるほうが優れている