1 ポイント 投稿者 GN⁺ 2025-09-27 | 1件のコメント | WhatsAppで共有
  • GoogleがGemini 2.5 Flash2.5 Flash-Liteの新しいプレビュー版を公開し、品質向上と効率改善が中核
  • Flash-Liteは指示理解力の強化、冗長な回答の削減、マルチモーダル・翻訳能力の向上により、高速・低コスト環境に最適化
  • Flashはツール活用能力の強化、トークン効率の改善により、複雑なエージェント型タスクで性能が大きく向上
  • 実際のテストではSWE-Bench Verifiedスコアが5%上昇し、社内ベンチマークでは長期的なタスク性能が15%向上
  • 両モデルとも-latestエイリアスをサポートし、コード修正なしで最新機能を利用でき、安定性を重視する場合は既存の2.5モデルを引き続き活用可能

Gemini 2.5 FlashおよびFlash-Liteの概要

  • Gemini 2.5 FlashとFlash-Liteの最新版がGoogle AI StudioとVertex AIで公開された。今回のリリースの目的は、継続的により優れたモデル品質と高い効率性を提供すること
  • 新しいFlash-LiteとFlashは、全体的な品質・速度・コストの面で既存モデルと比べて大幅に向上した性能を示す
  • Flash-Liteは出力トークンを50%削減し、Flashは24%削減され、運用コストの節約と高速処理を実現

Updated Gemini 2.5 Flash-Lite

  • 命令追従性の高度化: 複雑な命令やシステムプロンプトにおける理解・実行能力が大きく向上
  • 簡潔さの向上: より短く分かりやすい応答を生成し、トークンコスト削減と大規模トラフィック環境でのレイテンシ低減に効果
  • マルチモーダルおよび翻訳品質の強化: 音声文字起こし、画像認識、翻訳品質のすべてで信頼性が向上
  • Flash-Liteプレビュー版はgemini-2.5-flash-lite-preview-09-2025というモデル名ですぐに試すことができる

Updated Gemini 2.5 Flash

  • ツール使用能力の強化: 複雑なマルチステップ状況でのエージェントベース活用度が大きく高まり、SWE-Bench Verified基準で前バージョン比5ポイント上昇した性能(48.9% → 54%)を達成
  • コスト効率の向上: より少ないトークン使用でより高い出力品質を提供し、レイテンシおよびインフラコスト削減に効果
  • Primerユーザーからのフィードバックも好意的
    • Manusの共同創業者兼Chief ScientistであるYichao ‘Peak’ Jiは、「新しいGemini 2.5 Flashモデルは、驚異的な速度と知能の両方を実現している。長期目標ベースのエージェント作業で性能が15%改善し、コスト効率を基盤としてスケールがさらに拡大した」と評価
  • Gemini 2.5 Flashプレビュー版はgemini-2.5-flash-preview-09-2025というモデル名で利用可能

Geminiでビルドを始める

  • この1年間、プレビュー(preview)モデルをリリースすることで、開発者が最新機能を素早く試験導入し、フィードバックを提供できるようにしてきた。
  • 今日公開されたプレビュー版は、新しい安定版(stable)バージョンへ正式移行するものではなく、次期正式版の品質を高めるための基盤として活用される
  • 長いモデル名の代わりに-latestエイリアスが追加され、常に最新モデルを簡単に使えるようになった。このエイリアスは自動的に最新バージョンに接続され、コード修正なしで新機能を試せる
    • gemini-flash-latest
    • gemini-flash-lite-latest
  • 特定バージョンが更新または終了される場合、少なくとも2週間前にメールで案内する。エイリアスは単なる参照であり、価格・機能・上限などは各リリースごとに異なる場合がある
  • 長期的な安定性が必要な場合は、既存のgemini-2.5-flashおよびgemini-2.5-flash-liteモデル名の使用を推奨

意義

  • 今回のリリースは正式な安定版への昇格ではなくプレビュー更新であり、今後の安定モデルに向けた実験とユーザーフィードバック収集の過程
  • GoogleはGeminiを通じて速度・知能・コスト効率のバランスを追求しており、開発者がより優れたAIアプリケーションを作れるよう継続的に改善している

1件のコメント

 
GN⁺ 2025-09-27
Hacker Newsのコメント
  • 最近Geminiを使っていて感じていた問題点をうまく突いている内容。モデル自体は本当に優秀なのに、実際に使うと会話が途中で切れる問題が繰り返し発生する。トークン制限やフィルタではなく、モデルが応答完了シグナルを誤って送るバグだと推測される。すでにGitHubや開発者フォーラムでP2 issueとして何か月も上がっている。完全なGeminiの回答をClaudeやGPT-4と比べると、品質はかなり悪くない。ただ、重要なのは信頼性。完璧ではなくても常に最後まで答えてくれるモデルのほうが使いやすい。Googleには技術力があるが、こうした基本的な会話フローの問題を直さない限り、ベンチマークがどれだけ良くても競合と比べて壊れている印象を与えざるを得ない。関連リファレンスは Issue #707 および 開発者フォーラムの議論 を参照
    • Geminiのもう1つの欠点について。ツールコーリングとJSON出力要求を同時に処理できない。リクエスト時にapplication/jsonを指定するとツール使用ができず、両方使うには無理やりJSONが正しく出ることを期待するか(頻繁に失敗する)、最初のリクエストでツールを使い、2回目のリクエストで整形する形になる。面倒ではあるが回避策自体は単純
    • Geminiだけの問題ではなく、ChatGPTでも信頼性の面で大きな問題を何度も経験している
    • こうした些細な問題や、AI Studioでスクロールすらまともにできない点が理解できない。こんなに素晴らしいツールなのに、なぜ基本機能が不足しているのか疑問
    • 自分も同じように感じている。Gemini 2.5 Proはソフトウェアアーキテクチャとの相性が本当に良い。だが、継続的に刺激を与えないといけないのが疲れる。Sonnetでも十分よくやれる
    • chatgptもやはり信頼性の問題が多い
  • llm-geminiプラグインにそのモデルのサポートを追加した。uvxで別途インストールなしに実行できる。例:
export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

リリースノートは こちら を参照。ペリカン関連の議論は この投稿 を参照

  • ペリカンが自転車に乗るSVGのサンプル画像が訓練データセットに入っているのか気になる。この分野のエンジニアにはHacker Newsによく来る人も多い
  • 結局だれが勝つのか気になる。カエル?アヒル?それともペリカン?
  • 2.5が改良版モデルなら、なぜバージョンが2.6ではないのか気になる。昔の2.5と新しい2.5を区別しなければならず、混乱する。以前Appleが番号なしで"the new iPad"と呼んで出したときのように煩わしいと感じる
    • だからSonnet v3.5の2番目のバージョンをv3.6と呼ぶことが多く、Anthropicもその次をv3.7にした
    • モデルはたいていリリース月/年で呼ぶ。たとえば最新のGemini 2.5 Flashは "google/gemini-2.5-flash-preview-09-2025" と呼ぶ。参考
    • 2.5はバージョン名ではなく、アーキテクチャ世代の表示。Mazda 3でたとえるなら、「Mazda 4」ではなく既存モデルに新しいトリムレベル(あるいは小規模なリフレッシュ)が付いたようなもの。SemVer(セマンティックバージョニング)のほうが良いという点には同意する
    • ひょっとするとバグ修正程度の意味合いを伝えたいのではと推測する
    • こうなると逆に、2.6 Flashと2.5 Proのどちらが良いのか混乱しそう
  • Googleは主要なファウンデーションモデル提供企業の中でも、レイテンシ、TPS、コストに本当に注力しているように見える。AnthropicとOpenAIはモデルの知能で先行しているが、ある性能閾値を下回ると遅い応答はコラボレーション系ツールで不便を生む。少し賢さが劣ってもGeminiのように速いモデルのほうが、ワークフローでは快適に感じられる。ただし、時にはclaudeやgpt-5に比べて完全に鈍く感じることもある
    • 個人的には、こうした二分法の構図が本当に正しいのか疑問。Geminiがそこまで「知能」で劣っているようには思えないし、今後のモデルサイクルでは差はさらに縮まると見ている。またGoogleはlatancy/TPS/コストだけでなく、自社モデルを単なるチャットボット以外のさまざまな製品へ素早く統合することにも力を注いでいるようだ。たとえばGoogle WorkspaceやGoogle Searchに加え、juleslabs.google/flow金融ダッシュボード のような新領域でも積極的に実験している。YouTubeにGeminiが組み込まれるのも時間の問題だと思う
    • 最近はGemini(2.5-pro)の使用量を減らしている。以前は深いリサーチ能力と信頼性の高い引用機能に感心していた。だがここ数週間で、議論好きになり、ソースに関する幻覚の判定もできなくなった。例としてGitHub Actionsのsecrets mapへのアクセスについて尋ねたところ、まともな答えではなく間違ったworkflowテストを出してきて、どれだけ反論しても詭弁を並べるだけだった。一方Chatgptは問題なく答えた。関連参照: 1つ目, 2つ目
    • 個人的にはLatency/TPS/cost競争はgrokとgemini flashの2モデルの争いだと思う。画像→テキスト作業ではこの2つに追いつけるモデルはない。OpenAIやAnthropicはこの部分にあまり関心がない
    • 「結婚前に相手を遅いインターネットの前に座らせてみろ」と言っていた10年前から、今や「結婚前に相手を遅いAIモデルの前に座らせてみろ」の時代になった ;-)
    • 賛同しにくい。Geminiは単に価格性能比に優れているだけでなく、一般ユーザーにとって最高の「日常使い」モデルだ。特にコーディングなど「エージェント」寄りの部分ではClaudeやGPT-5に大きく劣るが、長い会話や過去の文脈をよく覚えている点ではGeminiが最高。デバッグ時に複数モデルを並列で使うと、Geminiだけが過去メッセージの重要ポイントを拾って正確なコードサンプルを出す。低リソース言語対応やOCR、画像認識でも圧倒的。ただしGoogleは現時点ではマーケティングとAI UXが最も弱いが、改善されればさらに伸びるはず。実際、自分も3モデルをほぼ毎日併用している
  • Non-AI要約: 2つのモデルはいずれも人工知能分析指数でより賢くなり、エンドツーエンド応答時間も短縮された。出力トークン効率は24%〜50%改善(コスト削減に役立つ)。Gemini 2.5 Flash-Liteの主な改善点は、指示文理解力の向上、不要な冗長さの減少、マルチモーダル/翻訳能力の強化。Gemini 2.5 Flashは、より強力なエージェントツール使用とトークン効率の高い推論が特徴。モデル文字列は gemini-2.5-flash-lite-preview-09-2025 および gemini-2.5-flash-preview-09-2025
    • "Non-AI summary"のようなやり方は今後トレンドになる気がする。人が直接まとめたという事実だけで読む楽しさが増す
    • "Non-AI Summary"という用語はもらって使う
    • "output token efficiency" の意味が気になる。Gemini Flashは入力/出力トークン数で課金されるので、出力が同じならコストも同じはず。つまり、トークナイザーや内部方式を変えていないなら、どうコスト削減になるのか理解しにくい
    • 2.5 FlashはAIを初めて本当に役立つものにしてくれた。もともと#1のAI嫌いだったのに、今ではGoogle検索より先にGeminiアプリを開く。より正確で、広告もない。提供される情報も大半が正しく、インターネット上の正確な知識を手元に持っている感じがする。1人でGeminiアプリを使ってケールの播種温度のような話題に没頭できる。ブログやボット、SEOスパムの山よりこちらのほうが集中しやすい。ただ、Googleがこれをどれだけ長く維持できるのか、収益構造のカニバリゼーション問題は残る
    • 全体的に見て、従来版に対する漸進的な改善に見える
  • バージョン番号についての些細な不満だが、改善のたびに番号を上げるほうが直感的。今のような出し方だと混乱する
    • 自分も同じ不満がある。Anthropicも似たことをして「nerf」論争が大きくなった。こちらはトークンをパッケージで購入しているのに、有効期限も短く、実際にモデル更新がどれほど行われたのかもよく分からない。1%だけ良くなっても悪くなっても公開すべきだと思う。根本的にAI企業は透明性とアクセスしやすさをもっと守るべき。関連事例は Claude incident を参照
    • これは些細な不満ではなく深刻な問題。この方針ではバージョン番号そのものが無意味になる
    • おそらく既存の2.5 Flashモデルを置き換える概念。openaiが4-oモデルなどをひっそり更新し、過去にglazing問題でロールバックした事例も思い出す
  • モデルごとの意味あるバージョン管理(semver)体系を新しく作るべき。小さな最適化と完全なretrain/architecture変更を明確に区別できる必要がある
  • Gemini 2.5 Flashは最近自分が最も使っているLLM。特に画像入力と構造化出力ではOpenAI/Anthropicより良かった
    • Gemini 2.5 Flashは自分の業務分野ではChatGPT 5を圧倒している。こんなに人気がないのが意外
    • 価格が変わったかどうかは確認できていない
  • もしかして自分だけ別のGeminiを使っているのかと思う。会社でGoogle Workspaceを使っているのでGeminiが標準搭載されているのだが、他モデルと比べて結果がひどい。みんな褒めているけれど、自分が使ったGeminiは答えが間違っていたり、長すぎたり(要約が欲しいのにエッセイになる)、まったく満足できない。同じ質問をGeminiとかなり弱い版のChatGPTにしてみてもChatGPTのほうがずっと良い。何か見落としているのだろうか?
    • 自分はai studioでしか使ったことがないが、そちらでは他モデルよりずっと優秀。IDE統合などは未経験。ただし、過剰に褒めるのはやめるよう注意したほうがよく、それはコンテキストウィンドウ管理にも役立つ
    • 自分も似ている。翻訳用途以外ではほとんど使うことがなく、翻訳ですら時々拒否したり妙な挙動をする。直近では基本的な質問にカンマ1つだけ返したり、妙に倫理問題(例: 「フードをかぶったバックパック」)として拒否したこともあった。難癖をつけられそうな依頼を拒否するのが最大の問題
    • 用途次第。単純なQ&AならGPT-5のほうが良いが、文章からレポートを作る、要約する、強調するなどライティング用途ならGeminiが最高
    • 個人的には、ChatGPTが優れているのは追加説明を求めなくても質問をうまく解釈し、読みやすい形式に整理してくれる点。GPTのポストトレーニングは一段上だと感じる
    • 使い方が間違っている可能性もある
  • Gemini 2.5 Flashは価格に対する性能が印象的なモデル。それなのに、なぜGemini 2.0 Flashが依然として人気なのか分からない。OpenRouterで最近出ているモデルの数値:
    • xAI: Grok Code Fast 1: 1.15T
    • Anthropic: Claude Sonnet 4: 586B
    • Google: Gemini 2.5 Flash: 325B
    • Sonoma Sky Alpha: 227B
    • Google: Gemini 2.0 Flash: 187B
    • DeepSeek: DeepSeek V3.1 (無料): 180B
    • xAI: Grok 4 Fast (無料): 158B
    • OpenAI: GPT-4.1 Mini: 157B
    • DeepSeek: DeepSeek V3 0324: 142B
    • OpenRouterの欠点の1つは、各モデルの実利用企業数を公開していない点。大口顧客1社が乗り換えるだけで指標全体が変わり得る。この部分はもっと透明になってほしい
    • うちの会社でも、古いモデルに載せたまま更新していない業務が多い
    • 価格のため。2.0 Flashは2.5 Flashより安く、それでいて今でもかなり優秀なモデル
    • 2.0 Flashは2.5 Flashより明らかに安く、最近の更新までは2.5-Flash-Liteよりも良かった。テキスト解析、要約、画像認識などの用途で優秀な働き者。ただ、今は2.5-Flash-Liteが出たので置き換えられそう
    • 最新版に合わせて名前を直すのが面倒なので、2.5 Flashも名前体系をそのまま維持しているのだと思う。