- Gemini 2.5 Flash と Pro モデルの正式リリースにあわせて、最も安価で高速な Flash-Lite モデルのプレビュー版を公開
- Flash-Lite は 翻訳、分類などレイテンシに敏感なタスクに特化しており、2.0 Flash/Flash-Lite より低いレイテンシと高い全体品質を提供
- すべての 2.5 モデルは マルチモーダル入力、1M トークンのコンテキスト長、ツール連携(検索、コード実行など)、Thinking モードの切り替え などの機能をサポート
- **コスト対性能の最適化(Pareto Frontier)**を考慮した設計で、大規模トラフィック処理に適した製品ラインアップを備える
- Flash-Lite および Flash は 検索向けにもカスタマイズされて活用中で、開発者は Google AI Studio と Vertex AI でプレビュー版または正式版モデルを利用可能
Flash-Lite の特徴
- 最も安価で高速なモデルで、入力 100 万トークンあたり $0.10、出力 100 万トークンあたり $0.40 で提供
- コスト対性能に優れ、翻訳、分類など大量のリクエストが発生するタスクに特に適している
- 従来の 2.0 Flash-Lite より全体的に品質が向上しており、**科学(GPQA)**では 64.6% → 66.7%、**数学(AIME 2025)**では 49.8% → 63.1% に改善
- コード生成と編集ではそれぞれ 34.3%、27.1% 水準で、高性能モデルと比べると低いが、コスト対効果の高い選択肢
- マルチモーダル処理性能は 72.9% を維持し、画像理解は 51.3% から 57.5% に改善
- 推論(Thinking)モードを有効にすると全体的な正確性が向上し、たとえば HumanEvalでは 5.1% → 6.9%、SWE-bench multi-taskでは 42.6% → 44.9% に上昇
- 事実性(SimpleQA)、長文コンテキスト理解(MRCR) などでも Thinking モードで性能が目立って向上し、特に 1M トークン基準の長文コンテキスト精度は 5.4% から 16.8% へと 3 倍以上改善
- **多言語能力(MMLU)**も向上し、Non-thinking では 81.1%、Thinking では 84.5% に到達
1件のコメント
Hacker Newsの意見
Googleの投稿では言及がないが、Gemini 2.5 Flashモデルの値上げが含まれているように見える
2.5 Flash Preview基準のアーカイブされた価格は、入力テキスト/画像/動画が100万トークンあたり$0.15、音声は$1.00、出力はnon-thinkingが$0.60、thinkingが$3.50という構成だった
新しい価格ではthinkingとnon-thinkingの区別がなくなった
入力テキスト/画像/動画は100万あたり$0.30で2倍に値上げ、音声は$1.00で同じ、出力は100万あたり$2.50で従来のnon-thinkingよりかなり高いが、thinkingよりは安くなった構成
詳しい価格の内訳はこちらで確認できる
ブログ記事に価格変更についての追加情報が掲載されている
詳細な参考リンク
AI技術はまもなく非常に安くなると言われていたが、当面は価格が上がっている状況への言及
Geminiが最初にリリースされたときは価格が不自然なほど安く、競合と比べても安すぎると思っていたが、今になってようやく現実的な価格が反映されたように見えるという意見
何気なく2倍に引き上げられた価格
Gemini 2.0 Flashが$0.10/$0.40だったことを思うと、値上げ幅を実感する
鋭く捉えた変化だという意見
この価格変更は、audio-to-audio分野でGOAT(最高)になれたかもしれないGeminiにとって、かなり重要な変化だと思う
以前Gemini ProがAI Studioで無料提供されていた頃は、多くの人が使っていたと思う
その後はむしろ性能が悪くなり、今では重要な作業ではClaudeに戻っている
Geminiは無駄話の多い友人のような印象が強い
それでもブレインストーミングにはよく使っており、Geminiが生成したプロンプトを整えてClaudeで使うような形で使っている
Aider leaderboardを見ると、自分の経験とは違ってGeminiが常に優位というわけではない
自分はAider APIしか直接使っておらず、AI Studioの体験はない
Claudeはプロンプトが雑でも性能がそこそこ良く、特に方向性が曖昧なときの感覚が良い
自分が明確に望む方向がある場合は、Gemini 2.5 Pro(Thinking有効)のほうが良く、コードも安定して動く
o4-miniやo3では、もう少し「賢く」考えている感じはあるが、コードは不安定だ(Geminiのほうが安定している)
複雑さが増すほどClaudeは弱くなるようで、自分の基準ではGeminiとo3のほうが高く評価している
o3-miniのリリース以降、Claudeに戻ることはなくなった
自分も似たような経験をした
初期には複雑な問題もよく解いていたように見えたが、単純な作業では調整が難しい
回答があまりに冗長で、UXが最も重要なので、今はClaude CodeのUXを好んでいる
自分もまったく同じで、簡潔に答えるよう elaborate prompt でプロンプトを組んでGemを作ったのに、それでもなお冗長で、質問の範囲を不必要に広げる点が不便
内部情報はないが、モデルが量子化(quantized)されたような印象を受ける
一文字を無限に繰り返す現象など、量子化モデルでしか見たことのないパターンが観察される
以前のプレビューバージョンにロールバックしてほしい
プレビュー版はバランスが取れていて、実際に有用な反論もしてくれたのに、正式版(GA)は過度に肯定的な口調に変わってしまった
自分はGeminiに非常に感銘を受けて、OpenAIの利用をやめた
ときどきOpenRouterで3つのモデルをすべて試すが、今では90%以上Geminiしか使っていない
昨年は90%がChatGPTだったことを思うと、かなり大きな変化だ
Googleには批判的な立場だが、今回は本当にモデル群が優れていると感じる
特にcontext windowが非常に広い点が大きい
自分も同じで、今回はClaudeの購読を解約し、Geminiが急速に追いついていると思う
今回の発表で、Flash Liteはもはや「役立たず」から「使いどころのある道具」に格上げされたと思う
Flash Liteは安く、何よりほぼ常に1秒以内(最短200ms、平均400ms)で応答するという「速さ」が強みだ
私たちのサービスBrokk(brokk.ai)でもQuick Edits用に現在Flash 2.0(Non-Lite)を使っており、今回2.5 Liteの導入を検討する予定
Thinkingが遅いFlash 2.5より劣るモデルの用途には疑問がある
速い応答が重要なのに、thinkingを有効にすると速度が落ちるので微妙だ
コーディング以外の分野でGeminiをどう使っているのか、そしてなぜそれを選んだのか気になる
アプリを作るときにGenAIバックエンドを差し替え可能な設計にしているのか、価格や信頼性のために複数プロバイダーでロードバランシングしているのか、LLMにもスポットマーケットのようなものが生まれたら何が変わるのか気になる
自分の経験では、Gemini 2.5 Proは翻訳や要約(Canva活用)のような非コーディング作業で強みを発揮する
文脈ウィンドウの大きさと利用上限の大きさがそれを可能にしている
特に調査レポートの生成ではGeminiがChatGPTより優れていると思う
Googleが検索に強いからか、レポートが複数の情報源に基づいており、より正確だ
文章のスタイルもこちらのほうが好みで、Google Docsにエクスポートできる点も便利
ただしUIは競合に比べてかなり見劣りし、Custom instruction、Projects、Temporary Chatのような重要機能がないか不十分な点は大きな欠点
大量のNDA文書を一度に投入しても、数秒で関連内容だけを抜き出してくれる点が便利
大容量の文脈ウィンドウと、必要な情報を正確に抜き出す高い性能のおかげで、この種の作業に最適だ
Gemini Flash 2.0は極めて安価で、エンタープライズ級のワークロードに強いモデルだ
最先端の知能ではないが、低価格、速さ、構造化出力の高い信頼性のおかげで、開発時に非常に満足度が高い
2.5 Liteへのアップグレードを試す予定
自分はlexikon.aiをよく使っていて、特に画像の大量処理でGeminiを多用している
Google Vision APIの価格が、他の大手事業者(OpenAI、Anthropic)に比べてはるかに安いのが良い
Gemini 2.5 Flash(non-thinkingオプション)を思考パートナーとして活用している
自分の考えを整理したり、自分では思いつかなかった入力も自動で与えてくれる
自己省察にも役立っており、自分の考えや悩みを投げてAIの応答を参考にしている
現在2.5-pro APIにアクセスできない人がいるのか気になる
「projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro を見つけられないか、アクセス権がない」というエラーが出る
有効なモデルバージョンを使用しているか確認するよう案内文が表示される
大規模なLLM推論/データ処理サービスを運営しながら、さまざまなオープンウェイトモデルのコストと性能のプロファイリングを多く行っている
LLMの価格設定で今も不思議なのは、プロバイダーがトークン消費量に応じて線形に課金している一方で、実際のシステムコストはシーケンス長が増えるほど二乗的に増えることだ
最近はモデルアーキテクチャ、推論アルゴリズム、ハードウェアの大半が似通ってきているので、プロバイダーが価格を決める際には顧客のリクエストパターンに関する過去統計をかなり参考にしているように見える
結局のところ、実際の利用パターンのデータが集まるにつれて価格引き上げが起こること自体は、それほど新しい話ではないと思う
2.0 Flash Liteと比べて、2.5 Flash Liteの音声処理価格は6.33倍に上がっている
2.5 Flash Liteの音声入力は100万トークンあたり$0.5で、2.0では$0.075だった
なぜ音声トークン価格がここまで急激に上がったのか気になる
入力:出力トークン比率を3:1と仮定すると、blended priceは以前より3.24倍上昇し、2.0 Flash基準ではほぼ5倍に達する
そのため、2.0 Flashは今でも多くの用途、特にコーディング以外の分野で競争力がありそうだ
性能がやや低くても、プロンプトを複数回に分けて使えば実質的な効果がより良くなる可能性もある
今回の2.5 Flashが圧倒的な選択肢になると思っていただけに残念だ
(関連する価格資料はこちらを参照)