1 ポイント 投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有
  • Google DeepMind の Gemini Image ファミリーに追加された Nano Banana 2 Lite は、画像生成・編集をより高速かつ低コストで実行するためのモデルで、反復の多いビジュアル作業のコスト負担を下げることに重点を置いている
  • 中核となるのは 低レイテンシ と大規模なコスト効率で、重い本番向けモデルより低いコストで数千枚の画像を生成できる
  • 品質面では Nano Banana ファミリーの 制御性と正確性 を維持しながら、キャラクターの一貫性、精密な編集、現実世界の知識の活用をサポートする
  • Space Lift、Gridscape、Peek-A-Word、Anywhere などの事例は、画像生成がアプリの流れを妨げないほど高速になったときに可能になるユーザー体験を示している
  • 小さな顔、正確なスペル、細部の描写、データに基づく結果、翻訳・ローカライズ、複雑な編集と合成では誤りが起こり得るため、生成結果の確認が必要

高速生成と低コストを前面に出した Gemini Image モデル

  • Nano Banana 2 Lite は Google DeepMind が公開した Gemini Image モデルで、高速な画像生成・編集と低コストを目標としている
  • 主なユーザーは クリエイター、ビジネス、開発者 で、複数のビジュアルアイデアを素早く探索するワークフローに合わせている
  • Google DeepMind はこのモデルを、これまでで最も高速かつ効率的な Gemini Image モデルとして紹介し、最も低いコストで高速生成と編集を提供するとしている
  • アクセス経路は次のとおり

速度、コスト、品質のバランス

  • レイテンシの短縮 が中核で、高速な探索と反復作業を支援する
  • 大規模生成では、より重い本番向けモデルよりはるかに低いコストで数千枚の画像を作成できる
  • 品質は、Nano Banana に期待される制御性と正確性をより高速に提供する方向にある
    • キャラクターの一貫性 の維持
    • 精密なビジュアル編集
    • 現実世界の知識の活用
  • プロンプトにはキャラクター、背景、全体の雰囲気など、求める要素を詳しく書くほど、意図した画像に近づけやすい
  • プロンプトガイドは View prompt guideLearn how to prompt で提供されている

画像生成速度を前提にしたアプリ事例

  • Space Lift は部屋の写真をアップロードすると、Mid-Century Modern から Bohemian Chic まで、さまざまなインテリアコンセプトを即座に生成するアプリ
  • Gridscape は無限キャンバスで質問を入力すると、Nano Banana 2 Lite と Gemini 3.1 Flash Lite が作成したテキスト・画像で情報ノードを構成する
    • ユーザーはクリック可能な経路をたどって、関連する概念をさらに深く探索できる
  • Peek-A-Word は選択したテキストを AI 生成のビジュアル資料に変換し、簡潔な定義と文脈に沿った画像を1つの空間で提供する
    • タブを切り替えずに学習の流れを維持することに重点を置いている
  • Anywhere は Nano Banana 2 Lite で作られたインタラクティブな3D地球儀アプリ
    • 画像を添付すると、世界の名所を背景にパーソナライズされたポストカードシリーズを生成する
    • ユーザーは地球儀を回し、写真をクリックして仮想の旅行先情報を見られる

比較指標とモデルカード

  • Google DeepMind は Nano Banana 2 Lite を、これまでで最も効率的なモデルとして紹介し、品質と速度のバランスが良いとしている
  • 比較対象にはプレミアモデルである Nano Banana 2 が含まれる
  • 比較領域には、プロンプト順守、細部表現、制御性など、画像生成品質の要素が含まれる
  • 性能セクションでは次の指標を提示している
    • Image Editing: lmarena.ai 基準の競合モデル比の画像編集 Elo スコア
    • Image Generation: lmarena.ai 基準の競合モデル比の画像生成 Elo スコア
    • Latency per 1k resolution image: artificialanalysis.ai データに基づく 1k 解像度画像あたりのレイテンシ
    • Price per 1k resolution image: 1k 解像度画像あたりの価格
  • モデルカードは View model card で提供されている

パートナーが見た活用可能性

  • Figma Weave は Nano Banana 2 Lite が、ノードベースのキャンバス上でデザイナーがより多くのアイデアを探索し、独自の画像を作るのに役立つと評価している
  • Manus AI は自律ワークフローの中で、スライドデッキやWebページ向けのリアルタイム画像生成をテストしている
    • 速度は AI エージェントによる素早いビジュアル反復と、数秒以内の結果提供に適していると評価している
    • 画像品質はフル版の Nano Banana 2 に近いと見ている
  • Artlist は、生成速度が想像以上に速くなれば、ユーザーはツールを待つことなくアイデアの中に留まれると評価している
  • Weekend は音声操作のTVゲーム Wit’s End で、instant-ramen が Gemini 3.1 Flash Image より 1k 画像生成基準で約 2.7倍高速 だとしている
    • テキストから画像、編集、複数画像の合成を1つのドロップイン API で処理する
  • Latitude は、プレイヤーが探索している間に世界を生成するエンジンでは画像生成速度が重要であり、instant-ramen はプレイ体験に追随できるほど高速なビジュアル生成を可能にすると評価している

なお確認が必要な限界

  • Gemini は多様な画像を作成できるが、一部の機能はまだ改善中であり、生成画像は直接確認する必要がある
  • ビジュアル・テキストの忠実度 では、小さな顔、正確なスペル、画像の細部描写で難しさが生じる場合がある
  • データと事実の正確性 では、現実世界の知識は広範だが完全ではない
    • インフォグラフィック生成、図表への注釈、複雑なデータ表現で情報を誤って解釈したり、事実と異なる結果を作ったりする可能性がある
    • データに基づく出力は検証が必要
  • 翻訳とローカライズでは、複数言語のテキスト生成と翻訳が可能だが、文法、スペル、文化的ニュアンス、慣用表現で難しさが生じる場合がある
  • 複雑な編集と画像ブレンディングでは、マスク編集、昼を夜に変えるような大きな照明変更、複数画像の合成で、不自然な結果や視覚的アーティファクト、つながりのないシーンが出る可能性がある
  • キャラクターの一貫性は強みだが常に正確とは限らず、Google DeepMind はこれをより安定させるため改善を進めている

安全機能と利用上の注意

  • Google DeepMind はデータセット内の有害コンテンツを減らし、有害な出力の可能性を下げるため、広範なフィルタリングとデータラベリングを使用している
  • コンテンツ安全性では、児童の安全と表現を含めて レッドチーム と評価を実施している
  • 生成画像には最新のプライバシー保護・安全機能が含まれ、SynthID が AI 生成画像を識別できるよう、見えないデジタル透かしを画像に直接埋め込む
  • SynthID の情報は Learn more で提供されている
  • Gemini 3.1 Flash-Lite Image のような LLM は、Google の見解を代表しない不正確または不快なコンテンツを提供する場合がある
  • LLM が提供したコンテンツを信頼、公開、使用する際には注意が必要であり、医療・法律・金融などの専門的助言として依存すべきではない

1件のコメント

 
GN⁺ 3 시간 전
Hacker News の意見
  • 家のインテリア生成の最初の例は、言い表しがたいほど嫌い。最近の不動産仲介業者は、古くて売れないアパートを全部 AI フィルターにかけて、実際にはどんなひどい物件を法外な価格で売ろうとしているのかを見る前に、「IKEA 風に飾ればこう見えるかもしれない」という画像を何十枚も先にめくらされる

    • こういうのは違法な虚偽表示と見なすべきだと思う。AI の利用にはグレーゾーンが多すぎる
    • ほとんど詐欺に近いと思う。Streeteasy で、あるアパートは机、チェスト、クイーンベッドを全部「置いた」ように見えたけど、画像モデルが現実にはあり得ない比率で家具をただ縮小したのが明らかだった
      実際の寝室にはクイーンベッド 1 台がやっと入るだけだった ;(
    • アパートの実際の姿そのものを偽るのは、社会的にも法的にも受け入れられるべきではない、という点には 100% 同意する。ただ、私の浴室リフォームでは、画像モデルはデザインの選択にかなり役立った
      特に、ある部分にタイルを貼ったときに空間全体がどう見えるかを自分で想像しにくい場合に有用だった
    • 私の住む NYC では、そうした加工画像を載せるのは 10 年以上前から普通だった
      昔はそういう作業をしてくれる人を雇う費用がもっと高かっただけ
      加工された画像はいつも同じように明るい壁と、グレーの雑誌風の家具を見せる
      AI がそれを安くしただけで、結局こうなるのは避けられなかった
      こういう形で加工された画像には、加工済みであることを示す小さなウォーターマークが付いてはいる
    • 腕のいい写真家がいるだけでも効果はものすごい。友人が家を売ったとき、物件写真でその家がどれほど良く見えるか、また小さくないことは知っているのにどれほど広く見えるかに驚いた
      AI フィルターが出る前からあった問題なので新しくはないが、今ははるかにひどくなり、コストも下がった
  • このモデルをテストできる早期アクセス権をもらった。仕事経由であって、Google が個人的に自分を気に入ってくれたわけでは相変わらずない lol
    ここで宣伝されている通りに動作し、優れたテキストレンダリングのような要素では Nano Banana 2 を蒸留したバージョンのように見える。Nano Banana 1 はこの部分がずっと弱い
    もちろん、細かいプロンプトでは標準の Nano Banana 2 にはまったく及ばない。最大の不満は、NB2 ではプログラムからアスペクト比を強制できるのに、NB2L ではできない点
    ただ、画像 1 枚あたり $0.034 という価格は予想より高い。通常、価格は生成時間に連動するが、Nano Banana 1 の半分の時間で生成する一方、Nano Banana 1 は画像 1 枚あたり $0.039 だ
    NB1 のパイプラインを NB2L にそのまま置き換えられるという Google の主張は妥当
    昨日 Google は Gemini アプリで無料の画像生成を許可すると発表したが(https://blog.google/innovation-and-ai/products/gemini-app/pe...)、どのモデルを使うのかは明記していなかった。Nano Banana 2 Lite の主な動機はここにあると思う

    • Vertex 経由なら NB2 Lite でもプログラムからアスペクト比を設定できる [1]。GenAI Showdown 用の画像を作るときに使っているプログラムを更新して、モデル ID を gemini-3.1-flash-lite-image に変えたところ、16:9 や 4:3 のようなアスペクト比を使えた
      [1] - https://cloud.google.com/developers/vertex-ai
    • どんな仕事をしていると、自動画像生成を大規模にやる必要があるのか気になる
  • 悪くはないけど、Google の壊れた AI Studio の上にある。そこでは機能の半分が Google One アカウントを必要とするので使えない
    私は Workspace アカウントなので対象外で、切り替えることもできない。Google One は独自ドメインをサポートしていないから
    では、かっこいいメールアドレスと Banana の両方を使うには、アカウントを 2 つ運用して、そのうえ費用まで払わなければならないのか?ここで適切な有料 Google アカウントの数は 0 個だという気がしてきた

    • 似たような状況だった。Google はモデル利用と課金のユーザー体験を本当に改善する必要がある
      私の解決策は OpenRouter だった。開発・テスト用のチャットで Google のモデルを使って画像を生成でき、同じプロンプトを他のモデルと並べて実行してみることもできる。軽い画像生成にはとても便利
    • 私もほぼ同じ立場。個人用に One と Workspace の両方に払っているが、こういう機能にどちらを使うべきか曖昧
      たいていは文脈がより多い個人アカウントをデフォルトで使うが、そうすると Workspace Drive などの資料を取り込むのに数ステップ余計に必要になる
      それに Project Genie のようなものは Workspace ではまったく使えず、かなり奇妙に感じる
    • 少し露骨な宣伝だけど、burlap は Gemini Studio や OpenAI のキーを入れて、Web インターフェイスを触らずにあれこれ試せるようにしてくれる。そのために作った
      https://www.burlap.app/download
  • 速度は確かに印象的。標準の NB2 は画像 1 枚あたり約 30 秒だが、これは5 秒未満に見える
    子どもたちを登場人物にした、イラスト付きの物語を作ってくれるアプリを作った。イラストのスタイルは維持しつつ、子どもたちに似ていることを優先したかった
    複数のモデルをテストしたが、スタイライズした状態で似た感じを保つ点で、これほど近いモデルはなさそう。他のモデルはありふれたキャラクターのようにしてしまう
    ユーザーにできるだけ早く「なるほど」と感じてもらいたいので、このモデルをアプリのオンボーディングに入れるのが楽しみ。30 秒以上待たせるのは理想的ではない
    ただし実際のイラストには、引き続き標準の NB2 を使うつもり。この Lite 版は他の人が言っているように、ニュアンスと一貫性の面でまだ少し問題がある

    • 似たようなことを試したが、子どもに関連することはできないというエラーが出た。それは変わったのか?
  • 比較チャートに ChatGPT が入っていない。それ自体が多くを物語っている

    • そこは指摘する価値がある。知らない人のために言うと、ChatGPT Image 2 は ELO が 1387 と途方もなく高く、2位のモデルの 1273 より 100点以上高い(https://arena.ai/leaderboard/text-to-image
      代わりにレイテンシが問題で、ChatGPT Image 2 の High 設定は 1024x1024 で約2分と遅い
      いずれにせよ、このチャートに入れていたら、チャートを役に立たない形に歪めていただろう
      ChatGPT Image 2 についての記事を書きたいが、今は人々が精密な画像生成に興味を持っていないようだ。既存のテストでは ChatGPT Image 2 がすべてを圧倒しているにもかかわらず
  • Grok の画像モデルが、ここで強調されているほぼすべての指標で Nano Banana に勝っているというのは少し驚き

    • 本当にそうか? 何か見落としているのかな? まず、それは事実ではないように思うし、Lite ではないバージョンは全体的に Grok に勝っているようだ
      第二に、これはそもそも低コストの大量生成モデルであって、最先端のフロンティアモデルではないので、ベンチマークが低いのは当然だ
  • Nano Banana Pro が気に入った。まだ ローカル代替 はある? Qwen Image、Klein、最近は Krea の話を聞いたけど、おすすめできるものがあるか気になる

    • Krea-2 は素晴らしい。制限のあるライセンス、出力速度、JSON プロンプティングを受け入れられるなら、Ideogram 4 が最先端モデルにおそらく最も近い
      私のプロフィールにある GenAI Showdown を見ると、ローカルおよびプロプライエタリモデルとの比較ベンチマークがある
      実際に Gemini 2.5、つまり元の NB より高いスコアを出していて、かなり印象的だ
    • Krea は良い。公開されている最先端モデルの情報は r/StableDiffusion を見るといい
  • 画像生成の分野はかなり遅れて追いかけているので、たまにロールプレイ用トークンやジョーク、個人用の一時的なアセットを作るときだけ使っている。私の基準ではこれはとんでもないレベルだ
    2秒ほどで画像を作れる。以前は ChatGPT で同じ品質の画像を作るには30秒から1分かかっていた
    ここでの否定的な反応が理解できない

    • それでも ChatGPT の ディテール のほうがずっと良い。Nano Banana が追いつけないような複雑な6コマ漫画なども作れる
      そして否定的な反応のかなりの部分は、AIアートという概念自体が嫌いで、失敗してほしいと思っている人たちから来ている
    • 用途が違う。
      画像そのものが中心の作業をする人は、画像1枚あたりにもっとコストをかけたい
      一方で、画像がレポートの一部だったり、使い捨ての成果物、デモに入れるものだったりするなら、安価なアプローチのほうが良い
  • このページの「hands on」セクションに出ている リアルタイムプロトタイプ のようなものは、どうやって得るのか気になる
    gemini.g ではキャンバスを追加したり画像生成を使ったりはできるが、「space lift」プロンプトをどこに入れればデモのようになるのかよく分からない

  • わあ、レイテンシがものすごく減っている。これならいくつかのユースケースが新たに開けるはずだが、リンク先のウェブページはモデル間の違いを分かりやすく説明しているわけではない
    ただ、一般的な画像モデルを使ってきた個人的な経験では、自分のワークフローでは Google が一番良いと思う。もちろん極東圏のプロバイダーはまだ試していない
    他の人たちはどう考えているのか気になる