21 ポイント 投稿者 GN⁺ 2025-09-12 | 1件のコメント | WhatsAppで共有
  • Google Nano-banana のさまざまな画像生成・編集作業の例を集めたオープンソースの事例集
  • Google の画像生成技術を活用し、創造的な変換とマルチ画像編集機能を紹介
  • 各ケースは Twitter/X、Xiaohongshu など のコミュニティで収集された実際の活用事例
  • テキストプロンプトと入力画像を組み合わせ、実験的・応用的な変換例を幅広く提供
  • プロンプト設計と入力ガイドを文書として整理し、誰でもすぐに活用可能

概要

  • このリポジトリは、Nano-banana の画像生成・編集技術で作られた多様な画像とプロンプト例を集めたキュレーションギャラリー
  • Google の無限ともいえる画像生成・編集の可能性を示しながら、Nano-banana への理解を深め、マルチ画像融合と創造的編集の力をあわせて体験できる
  • 事例は主に Twitter/X、Xiaohongshu、そのほかの 個人メディアプラットフォーム から収集
  • 最新のリポジトリアップデート日とバージョン履歴を記録

メニュー

各事例は入力画像とプロンプトの組み合わせ、出力例で構成される。

入力 & プロンプト例

  • 入力: 参照画像、Google Maps 画像、人物写真、スケッチ、素材画像など複数タイプが必要
  • プロンプト: 英語で記述した画像変換、編集、デザイン、色補正などの詳細な要望を含む

代表的なプロンプト構成

  • 人物またはアイテムのスタイル、ヘアスタイル、背景変換など
  • 製品、建物、キャラクター、食べ物、漫画スタイル、証明写真、モックアップなど多様な用途に活用可能
  • [ブラケット] 部分は用途に応じて修正し、細かくガイドできる

例の流れ

  • 画像アップロード → プロンプト入力 → 出力結果を確認(画像リンク)
  • 一部は「入力/結果」テーブル形式、一部は出力結果のみを提供

ケースの主な例の要約

  • キャラクター/製品変換: 人物写真をキャラクター、フィギュア、レゴ、Gundam スタイルのパッケージとして生成
  • コスプレ/デザイン: イラストベースのコスプレ写真、キャラクター三面図・表情シートを生成
  • 画像補正/復元: 古い写真の復元、透明背景の削除、色・明度の改善、ノイズ修復
  • 合成/スタイル変換: 漫画・白黒のセリフなし4コマ、漫画スタイル変換、ミニチュア、素材/フィルター適用、ヘアスタイル/メイク変更
  • データ可視化: ブログ/記事要約インフォグラフィック、カロリー・栄養成分表示
  • 教育/プレゼンテーション: 長期模型図、数学の問題解説、説明注釈の追加など

プロンプトガイドと参考情報

  • 各プロンプトとケース説明に、入力値および [置換内容] のカスタムガイドを提供
  • 複数画像を組み合わせて、ストーリー、ファッションボード、ポーズシートなどに応用
  • 技術的な成果物(ワイヤーフレーム、ホログラム、3D表現)も可能

コミュニティ参加と謝辞

  • AI コミュニティ内の実例共有者を中心に、資料が継続的に追加されている
  • 新しい活用アイデアや創作物を自由に提案可能

プロジェクトの意義と差別化ポイント

  • 最新の画像生成アルゴリズムの実応用例を豊富に集約した GitHub リポジトリ
  • Nano-banana のプロンプトと出力結果の詳細オプション、事例別の適用方法をひと目で確認できる
  • 実務デザイナー、AI 研究者、開発者など、誰にとっても高い参考価値と実用性を提供
  • それぞれの例は、さまざまな画像編集・生成・変換の目的別に容易に再利用できる

1件のコメント

 
GN⁺ 2025-09-12
Hacker Newsの意見
  • Nano-Bananaが本当に驚くような結果を見せていることに感心した。私は、さまざまなテキスト・トゥ・イメージのプロンプトでどれだけ正確に結果が出るかを最優先基準にして最先端画像モデルを比較するWebサイトを運営している。最近では、既存画像をテキストで局所的に編集する能力を評価するEditing Comparison Showdownも追加した。現在は6つのマルチモーダルモデル(Nano-Banana、Kontext Max、Qwen 20bなど)を比較している。こちらのリンクで結果を確認できる。Gemini Flash 2.5は12点満点中7点で1位、Kontextは5点だが、しかも開発向けモデルをローカルで実行できることを考えるとかなり印象的だ
    • 私はNano Bananaに、何かを正確に大きく変えるよう頼んでも、同じ画像を生成することが多かった。たまに本当に奇妙なくらいちゃんとした結果が出ることもあるが、同じ現象を経験した人や解決法を知っている人がいれば教えてほしい
    • 依然として時計(例: 1:15 amと表示された時計)は正しく表現できない。また、漫画画像内に生成されるテキストも100%正確ではない
    • gpt-image-1を追加することを勧める。グローバルなピクセル変更方式なので厳密には編集モデルではないが、非常に複雑なプロンプトや画像参照を使う場合は、Nano Bananaよりも指示追従性が高く感じられる
  • このモデルは想像力が許す限りほとんど制約がなく、しかも画像1枚あたり$0.04しかかからない点が印象的だ。ページには書かれていないが、これはGoogle Gemini Image Generationモデルである(公式ドキュメント)。作例集もよい。ただ、2つ目の例は職場環境ではやや不適切に思えたのが少し不思議だった
    • Nano Bananaは特に画像の編集に最適化されている点を強調したい(詳細情報
    • これが単一モデルなのか、モデルパイプラインなのか気になる
  • 一部の例にはNSFW(職場閲覧注意)要素が含まれている。米国のテック業界の多くでは、ページ上部のURLを共有するのはセンシティブになり得るので、安全な個別の例だけを選んで見せたほうがよいかもしれない。ちなみにCase 1の半分は、スカートを持ち上げて下着が見えるポーズを取ったアニメ・漫画風メイド服の女性だ。訪問者が最初のページですぐ目にする例の中で、最も問題がある部分だと思う
    • この下着露出の例を生成できたという点が本当に驚きだった。私がNano Bananaを使ったときは(セーフティフィルターを'off'にしても)、呪われた侍の兜と死体が横たわる漫画風画像は生成拒否された
    • さらに気になったのは、参照画像が明らかにアーティスト制作の高品質デジタルアートだということだ。AI/LLM分野では法的問題を離れても、他人の著作物を公式ドキュメントで堂々と使うのは倫理的に居心地が悪い
  • みんながなぜ良い結果を得ているのか本気で理解できない。ここでNano Banana(gemini-2.5-flash-image-preview)を選んで使ってみたが、結果はひどかった。キャラクターの参考画像とシーンをアップロードして、そのキャラクターをそのシーンに入れてくれと頼むと、ただ切り貼りするだけで、スタイルも色味も違っていてもそのまま入れてしまう。ChatGPTのほうがまだましな結果を出す(似ていないこともあるが、Paintで2分で作るよりはずっと良い)。もしかして自分は間違ったモデルを使っているのだろうか?
    • 私も同じ現象を経験している。Nano Bananaはうまく動くときは非常によくできるが、90%のケースでは結果が変だったり品質が低かったりする。まるで切り貼りやペイントオーバーのようで、妥当な依頼でも「セーフティ」を理由に拒否される(経験上、実在人物が入った画像はほぼ無理)。感心するというよりいら立つ
    • 私の経験では、Nano Bananaは自分で問題ないと判断すると本当にコピー&ペーストを積極的に使う。キャラクターがシーンに自然に統合されるべきだと明確にプロンプトする必要がある。つまり、きちんとプロンプトできれば他モデルよりずっと優秀だが、そのプロンプト設計の過程自体が面倒で煩わしい
    • プロンプトを少しずつ変えてみたり、Gemini 2.5 proにプロンプト改善を依頼してからGemini 2.5 Flashに渡す形で繰り返し、何が有効か学んでいくのがよさそうだ
    • 私も同様に、本当にひどい結果しか出ない。妻(32歳)の写真をアップロードして、前髪があったらどう見えるか試そうとしたが、セーフティの問題で大半が拒否された。たまに成功しても完全に別人の顔になる。ようやく一度だけまともにできたが、前髪の調整はできず、同じ結果ばかり返ってきて、途中で「コンテンツブロック」が何度も出た
  • 個人的にはこのモデルの性能は期待外れだ。サンプル画像はかなり選別されているように見える。自分が試した失敗例を共有する。顔に強い影がある写真で影を除去できない、古い白黒写真を鮮明なカラー(最新DSLR風)にしてほしいと頼んでも色味が薄く変わるだけ、ヘアスタイルの3x3グリッドを頼むと2x3を繰り返し、ようやく3x3になっても人種が混ざる、実写画像と生成画像の融合も不可能(例: チュチュを着たイルカ画像は雑なコピペにしか見えない)
    • ARビルディングハイライトの例はかっこよかった。同じプロンプトで、スカイラインの中で最も目立つ建物はうまくハイライトできるが、別の建物を指定すると完全に失敗する。ミッドタウン・マンハッタンの画像でChrysler Buildingを見つけてハイライトしてくれと頼んだら「画像に存在しない」と言い、432 Park Aveを頼むと画像中央にランダムな建物が出てきた。シカゴのMuseum Campusの写真でも特定の建物を頼むと、見えてもいないHancock Centerをハイライトした。説明も間違っており、テキストが壊れていることもあった
    • サンプルも完璧ではない。「時代ごとの自分の写真」プロンプトでは「顔を変えないで」という依頼にもかかわらず完全に変わっており、「OOTD Outfit」ではカメラの使い方が間違っていて、「Virtual Makeup Try-On」ではメイク表現に失敗し、「Lighting Control」では照明制御がひどく、「Design a Chess Set」では入力画像は不要だとしていたのに実際には必要だったなど、結果には疑問が多かった。それでもPhotoshopを使わない人や、手作業を始める前のたたき台を得る用途には使える
    • 実際のところ、どんなプロジェクトでも宣伝用デモは常に良い例を中心に選ぶものだと思う
  • PythonでNano Bananaの画像生成を簡単に行えるパッケージを最近公開した(githubリンク)。テスト中に見つけた印象的なプロンプトエンジニアリングの傾向があるのだが、a) LLM風にMarkdownリストを使う方法と、b) 「award-winning」「DSLR camera」のような従来のAI画像スタイルキーワードの活用が、Gemini 2.5 Flash Imageでは非常に効果的だ。このモデルはテキストエンコーダと学習データセットがより大きいため、実際の表現がどんな特徴を持つかをうまく見分けられる。Googleの開発者ドキュメントでもこうしたキーワードの使用が推奨されている。そして32kのコンテキストウィンドウのおかげで、画像としてHTMLをレンダリングしたり、精巧なJSON入力で一貫した結果を得たりといった面白い試みも可能だ
  • 驚くべき進歩だと思う。少し前までは、同じキャラクターを何度も一貫して出力することさえ難しかった。今ではこれほどの組み合わせや一貫性を見られる。生成モデルの進歩の速さは本当にすごい。数多くの例を集めてくれた制作者と貢献者に感謝したい。実際にどんなツールなのか理解するうえで大いに役立つ
  • 最近気づいたのだが、以前は、ヘアスタイルの変化のような頭の中のイメージを想像できることが人間特有の特別さだと信じていて、それがかなり楽しかった。今では機械がそうした能力を自分の想像力と同等かそれ以上に再現するのを見て、自分がハンガーを持ち上げる力が大したことないのと同じように、自分の想像力も大したものではないのかもしれないと感じて少し居心地が悪い
    • 私はそういうふうに頭の中に画像を思い浮かべられないタイプで、いつも知的・論理的にしか考えないのだが、あなたの想像力は今でも特別な能力だ。普通の人には本当に超能力のように感じられる。AIはバットマン(金とユーティリティベルトがあれば強いが、それがなければ無力)、人間の想像力はスーパーマン(生来の能力なのでいつでも引き出せる)にたとえたい
    • 頭の中で想像したイメージを見て喜んだり、笑ったり、驚いたり、衝撃を受けたりできるという点が本当に特別だと思う。人間には存在する理由と感情があり、夕焼けを見て光の散乱を考えてもいいし、ただその驚異を楽しんでもいい。瞬間瞬間を丸ごと受け止めるたびに、魔法のように感じられる。私があなたに返信できて、Hacker Newsが存在していること自体が奇跡のようだ
    • 私はアファンタジア(頭の中で映像を思い描けない症状)があるので、今や誰もが同じ条件で想像できるようになったのはうれしい
    • 今後、機械が新しい芸術スタイルを独自に生み出せるのか気になる。たとえば漫画・アニメのスタイルは時代とともに変化してきたが、もし人間がそうした進化を止めたら、機械はそれを発展させ続けられるのだろうか。原理的には可能だろうが(人間も生物学的な機械なので)、現在のAIアーキテクチャではまだ先の話だと思う
    • 公平に見れば、モデルのこの能力そのものが、私たちが作った学習データのおかげでもある
  • Nano Bananaを本当に便利に使っている。息子や友人の子どもたち向けに、写真ベースの塗り絵本を作るときに活用している(作例とコード)。白黒の塗り絵本らしさをうまく保ちながら、元写真のディテールもある程度残した結果を作れる
  • 若い女性を性的に演出した例が多すぎて不快に感じる。Case 1/Bは女性キャラクターがスカートを持ち上げて下着を露出する場面だ。かなり印象的なモデルなのに、こうした未熟なコンテンツのせいでPRが台無しになっている気がする。数えたところ、若い女性の例が26、男性が9だった。ちなみに欠けているのは「Lena」の例だけだ(Lenna参考
    • 私も最初はまったく同じように不快だった。お互い年を取ったからなのかは分からないが、そう感じた
    • 技術発展の原動力が常に性的欲望だったことは認める(気に入らなくても)。VHS、オンライン決済、動画ストリーミングなども結局はそうした需要が牽引してきた。「インターネットはポルノだ」という有名な歌も思い出す
    • 先史時代の彫刻家が何を彫っていたか調べてみれば、もっと驚くはずだ。サイトを見る前にコメントを読んでいて、Case 1が子どもで、その次がセクシーなメイドだったので、「頼むから、この2つが1枚の画像に合体していたりしないでくれ」とまず心配になった。