- Gemini 2.5 Flash は、Google AI Studio と Vertex AI を通じて提供される ハイブリッド推論モデル で、速度とコストを維持しながら推論能力を大幅に向上
- 思考(on/off)機能 と thinking_budget 設定 により、性能、コスト、レイテンシ をきめ細かく調整可能
- 思考予算 を設定することで、モデルが生成できる最大トークン数を細かく制御でき、複雑なタスクに対してより正確で包括的な回答を提供
- 低コストで高い性能を実現する Google の 最もコスト効率の高い推論モデル であり、さまざまなユースケースに合わせて柔軟に調整可能
- 現在、Google AI Studio、Vertex AI で プレビューとして利用可能 で、API でも設定可能
Gemini 2.5 Flash プレビューをリリース
- Google は Gemini 2.5 Flash を Google AI Studio と Vertex AI を通じて プレビュー(preview) として公開
- 従来の 2.0 Flash より推論能力が大幅に向上し、速度とコスト効率は維持
- 初の 完全なハイブリッド推論モデル として、開発者は 思考(thinking) モードをオン/オフできる
- thinking_budget 設定により、品質、コスト、応答レイテンシ のバランスを調整可能
- 思考モードがオフでも、2.0 Flash より向上した性能を維持
Gemini 2.5 Flash の推論機能
- Gemini 2.5 Flash は回答をすぐに生成せず、先に思考を行う構造
- 複雑な問題や数学の問題、研究分析の質問などに対して より正確で包括的な回答を生成
- LMArena の Hard Prompts ベンチマーク では 2.5 Pro に次ぐ高い性能 を示す
- 他モデルと比べて 低価格 かつ 小さいモデルサイズ で同等の性能を提供
最もコスト効率の高い推論モデル
- Gemini 2.5 Flash は 価格対性能が最も優れた推論モデル と評価されている
- Google の 品質対コスト効率曲線(Pareto frontier) に新たに加わった
思考調整機能: thinking_budget
- さまざまなユースケースに合わせて、品質、コスト、レイテンシの きめ細かな調整機能 を提供
- thinking_budget は、モデルが思考に使える 最大トークン数 を意味する
- 例: budget を高くすると品質は向上するが、コストとレイテンシは増加する
- 思考が不要な単純な質問には 低い budget を自動適用
- budget の範囲は 0 ~ 24,576 トークン で、AI Studio および Vertex AI でスライダーまたは API パラメータとして調整可能
思考レベルごとのプロンプト例
低レベルの推論が必要
- “Thank you” in Spanish
- カナダの州(Province)の数を尋ねる
中レベルの推論が必要
- 2 個のサイコロを振って 7 が出る確率を計算
- スケジュールに基づいて平日にバスケットボールを 5 時間できる時間割を作成
高レベルの推論が必要
- 梁の機械工学的な応力計算問題
- Excel スタイルの数式評価関数を作成する問題
はじめに
- Google AI Studio、Vertex AI、Gemini アプリで preview バージョンを利用可能
thinking_budget パラメータの実験を通じて 複雑な問題解決の可能性を探れる
- コード例:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- 詳細は 開発者ドキュメント と Gemini Cookbook を参照
- 今後さらに多くの機能が追加される予定で、正式リリース前まで継続的に改善予定
1件のコメント
Hacker Newsのコメント
GoogleがGemini 2.5 Pro(実験版)を無料で提供しているのは大きな出来事だった。私はOpenAIのより高価なモデルを使ったことがないので比較はできないが、過去に使ってきた無料モデルと比べると、Gemini 2.5 Proはかなりの進歩を見せている。このモデルは、私が扱うほとんどのトピックで私より賢く、私に同意しようとせず、むしろ議論を仕掛けてくる。今では私のカジュアルなAI利用はすべてGeminiに集中しており、深いテーマについて質問するのが楽しみだ。このモデルの価値を高める新しいツールも作っている
Geminiモデルでしばしば見過ごされる機能の1つは、API経由で直接Pythonコードを書いて実行できることだ。私のllm-geminiプラグインはこれをサポートしている: GitHubリンク。コード実行に追加料金はかからず、入力トークンと出力トークンに対してのみ課金される。たとえば、入力10、出力1,531で0.536セントかかった
Gemini flashモデルは最も注目されていないが、実運用ではコストパフォーマンスが最も高く、マルチモーダル機能も備えている。Googleは静かにAI競争で勝ちつつある
Gemini 2.5 Flashのドキュメントを深く掘ると見つかる隠れた情報: 画像入力に対して、このモデルは関連する対象の2Dバウンディングボックスを生成できるだけでなく、セグメンテーションマスクも生成できる。この価格帯でFlashモデルがセグメンテーションマスクを生成できるのはかなりすごい。セグメンテーションマスクは、マスクを表すb64文字列を生成することで実装されている
プログラマーではない私にとって、Googleは驚くほど優秀になってきている。最初から動くコードを出してくれる。ウェブサイトのデータをスクレイピングして分析するコードを書いてほしいと頼んだところ、実際にデータをスクレイピングして分析するコードを書いてくれた。基本的なデータ分類と集計ではあったが、それでも期待していなかった
Googleのさらなるイノベーション。OpenAIには大きな問題が2つある。1つ目は、Googleの垂直統合されたチップパイプラインと、AIチップを生産するのに必要な深いサプライチェーンおよび運用の知見だ。これはあらゆる段階で圧倒的なコスト優位をもたらす。2つ目は、データ不足と、継続的に更新される知識源としてのソーシャルメディアが持つ不公平な優位性だ。新しいデータはますます価値の高い差別化要因になっている。SamAはこれらの問題を認識しており、OpenAIが成功できるかどうかを左右する根本的な問題だと見ている
Gemini 2.0 Flashから50%の値上げ。大きく聞こえるが、Flashはこの品質帯の他モデルと比べれば依然として非常に安い
Python APIライブラリのコードで興味深い点を見つけた: GitHubリンク。thinking_budgetは文書化されているが、include_thoughtsが何なのかは理解しにくい。このオプションを使ってGeminiに思考要約を返させる方法は見つけられなかった
GoogleはAPIと無料のAI Studioを通じて印象的なモデルを提供している一方で、Geminiアプリで使われているモデルはずっと悪く見える。ここ数週間、WorkspaceアカウントでGemini Advancedを使ってきたが、モデルは考える時間が短く、出力も短く、コンテキストウィンドウも宣伝されている100万トークンにはほど遠いように見える。Googleは意図的にGeminiアプリを制限しているようだ
社内PDF(3ページ、中程度の難易度)をjsonベンチマークとして実行した結果: