Gemini 2.5 Flash リリース

(developers.googleblog.com)

5 ポイント投稿者 GN⁺ 2025-04-18 | 1件のコメント | WhatsAppで共有

Gemini 2.5 Flash は、Google AI Studio と Vertex AI を通じて提供される ハイブリッド推論モデル で、速度とコストを維持しながら推論能力を大幅に向上
思考(on/off)機能 と thinking_budget 設定 により、性能、コスト、レイテンシ をきめ細かく調整可能
思考予算 を設定することで、モデルが生成できる最大トークン数を細かく制御でき、複雑なタスクに対してより正確で包括的な回答を提供
低コストで高い性能を実現する Google の 最もコスト効率の高い推論モデル であり、さまざまなユースケースに合わせて柔軟に調整可能
現在、Google AI Studio、Vertex AI で プレビューとして利用可能 で、API でも設定可能

Gemini 2.5 Flash プレビューをリリース

Google は Gemini 2.5 Flash を Google AI Studio と Vertex AI を通じて プレビュー(preview) として公開
従来の 2.0 Flash より推論能力が大幅に向上し、速度とコスト効率は維持
初の 完全なハイブリッド推論モデル として、開発者は 思考(thinking) モードをオン/オフできる
thinking_budget 設定により、品質、コスト、応答レイテンシ のバランスを調整可能
思考モードがオフでも、2.0 Flash より向上した性能を維持

Gemini 2.5 Flash の推論機能

Gemini 2.5 Flash は回答をすぐに生成せず、先に思考を行う構造
複雑な問題や数学の問題、研究分析の質問などに対して より正確で包括的な回答を生成
LMArena の Hard Prompts ベンチマークでは 2.5 Pro に次ぐ高い性能 を示す
他モデルと比べて 低価格 かつ 小さいモデルサイズ で同等の性能を提供

最もコスト効率の高い推論モデル

Gemini 2.5 Flash は 価格対性能が最も優れた推論モデル と評価されている
Google の 品質対コスト効率曲線(Pareto frontier) に新たに加わった

思考調整機能: thinking_budget

さまざまなユースケースに合わせて、品質、コスト、レイテンシの きめ細かな調整機能 を提供
thinking_budget は、モデルが思考に使える 最大トークン数 を意味する
- 例: budget を高くすると品質は向上するが、コストとレイテンシは増加する
思考が不要な単純な質問には 低い budget を自動適用
budget の範囲は 0 ～ 24,576 トークン で、AI Studio および Vertex AI でスライダーまたは API パラメータとして調整可能

思考レベルごとのプロンプト例

低レベルの推論が必要

“Thank you” in Spanish
カナダの州(Province)の数を尋ねる

中レベルの推論が必要

2 個のサイコロを振って 7 が出る確率を計算
スケジュールに基づいて平日にバスケットボールを 5 時間できる時間割を作成

高レベルの推論が必要

梁の機械工学的な応力計算問題
Excel スタイルの数式評価関数を作成する問題
- 依存関係の解決、演算子優先順位、循環検出が必要

はじめに

Google AI Studio、Vertex AI、Gemini アプリで preview バージョンを利用可能
thinking_budget パラメータの実験を通じて 複雑な問題解決の可能性を探れる

コード例:

from google import genai  

client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  

response = client.models.generate_content(  
  model=&quot;gemini-2.5-flash-preview-04-17&quot;,  
  contents=&quot;You roll two dice. What’s the probability they add up to 7?&quot;,  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

詳細は開発者ドキュメントと Gemini Cookbook を参照
今後さらに多くの機能が追加される予定で、正式リリース前まで継続的に改善予定

1件のコメント

GN⁺ 2025-04-18

Hacker Newsのコメント

GoogleがGemini 2.5 Pro（実験版）を無料で提供しているのは大きな出来事だった。私はOpenAIのより高価なモデルを使ったことがないので比較はできないが、過去に使ってきた無料モデルと比べると、Gemini 2.5 Proはかなりの進歩を見せている。このモデルは、私が扱うほとんどのトピックで私より賢く、私に同意しようとせず、むしろ議論を仕掛けてくる。今では私のカジュアルなAI利用はすべてGeminiに集中しており、深いテーマについて質問するのが楽しみだ。このモデルの価値を高める新しいツールも作っている
Geminiモデルでしばしば見過ごされる機能の1つは、API経由で直接Pythonコードを書いて実行できることだ。私のllm-geminiプラグインはこれをサポートしている: GitHubリンク。コード実行に追加料金はかからず、入力トークンと出力トークンに対してのみ課金される。たとえば、入力10、出力1,531で0.536セントかかった
Gemini flashモデルは最も注目されていないが、実運用ではコストパフォーマンスが最も高く、マルチモーダル機能も備えている。Googleは静かにAI競争で勝ちつつある
Gemini 2.5 Flashのドキュメントを深く掘ると見つかる隠れた情報: 画像入力に対して、このモデルは関連する対象の2Dバウンディングボックスを生成できるだけでなく、セグメンテーションマスクも生成できる。この価格帯でFlashモデルがセグメンテーションマスクを生成できるのはかなりすごい。セグメンテーションマスクは、マスクを表すb64文字列を生成することで実装されている
プログラマーではない私にとって、Googleは驚くほど優秀になってきている。最初から動くコードを出してくれる。ウェブサイトのデータをスクレイピングして分析するコードを書いてほしいと頼んだところ、実際にデータをスクレイピングして分析するコードを書いてくれた。基本的なデータ分類と集計ではあったが、それでも期待していなかった
Googleのさらなるイノベーション。OpenAIには大きな問題が2つある。1つ目は、Googleの垂直統合されたチップパイプラインと、AIチップを生産するのに必要な深いサプライチェーンおよび運用の知見だ。これはあらゆる段階で圧倒的なコスト優位をもたらす。2つ目は、データ不足と、継続的に更新される知識源としてのソーシャルメディアが持つ不公平な優位性だ。新しいデータはますます価値の高い差別化要因になっている。SamAはこれらの問題を認識しており、OpenAIが成功できるかどうかを左右する根本的な問題だと見ている
Gemini 2.0 Flashから50%の値上げ。大きく聞こえるが、Flashはこの品質帯の他モデルと比べれば依然として非常に安い
Python APIライブラリのコードで興味深い点を見つけた: GitHubリンク。thinking_budgetは文書化されているが、include_thoughtsが何なのかは理解しにくい。このオプションを使ってGeminiに思考要約を返させる方法は見つけられなかった
GoogleはAPIと無料のAI Studioを通じて印象的なモデルを提供している一方で、Geminiアプリで使われているモデルはずっと悪く見える。ここ数週間、WorkspaceアカウントでGemini Advancedを使ってきたが、モデルは考える時間が短く、出力も短く、コンテキストウィンドウも宣伝されている100万トークンにはほど遠いように見える。Googleは意図的にGeminiアプリを制限しているようだ
社内PDF（3ページ、中程度の難易度）をjsonベンチマークとして実行した結果:
- gemini-flash-2.0: 約60%の精度、6,250ページあたり1ドル
- gemini-2.5-flash-preview（思考なし）: 約80%の精度、1,700ページあたり1ドル
- gemini-2.5-flash-preview（思考あり）: 約80%の精度、350ページあたり1ドル
- gemini-flash-2.5: 約90%の精度、150ページあたり1ドル
- 思考ありのバリアントを通常版と分けてほしい。モデルのパラメータが価格に大きく影響する場合、とても混乱する

Gemini 2.5 Flash リリース

Gemini 2.5 Flash プレビューをリリース

Gemini 2.5 Flash の推論機能

最もコスト効率の高い推論モデル

思考調整機能: thinking_budget

思考レベルごとのプロンプト例

低レベルの推論が必要

中レベルの推論が必要

高レベルの推論が必要

はじめに

関連記事

1件のコメント

Hacker Newsのコメント