5 ポイント 投稿者 GN⁺ 2025-04-18 | 1件のコメント | WhatsAppで共有
  • Gemini 2.5 Flash は、Google AI Studio と Vertex AI を通じて提供される ハイブリッド推論モデル で、速度とコストを維持しながら推論能力を大幅に向上
  • 思考(on/off)機能thinking_budget 設定 により、性能、コスト、レイテンシ をきめ細かく調整可能
  • 思考予算 を設定することで、モデルが生成できる最大トークン数を細かく制御でき、複雑なタスクに対してより正確で包括的な回答を提供
  • 低コストで高い性能を実現する Google の 最もコスト効率の高い推論モデル であり、さまざまなユースケースに合わせて柔軟に調整可能
  • 現在、Google AI Studio、Vertex AI で プレビューとして利用可能 で、API でも設定可能

Gemini 2.5 Flash プレビューをリリース

  • Google は Gemini 2.5 Flash を Google AI Studio と Vertex AI を通じて プレビュー(preview) として公開
  • 従来の 2.0 Flash より推論能力が大幅に向上し、速度とコスト効率は維持
  • 初の 完全なハイブリッド推論モデル として、開発者は 思考(thinking) モードをオン/オフできる
  • thinking_budget 設定により、品質、コスト、応答レイテンシ のバランスを調整可能
  • 思考モードがオフでも、2.0 Flash より向上した性能を維持

Gemini 2.5 Flash の推論機能

  • Gemini 2.5 Flash は回答をすぐに生成せず、先に思考を行う構造
  • 複雑な問題や数学の問題、研究分析の質問などに対して より正確で包括的な回答を生成
  • LMArena の Hard Prompts ベンチマーク では 2.5 Pro に次ぐ高い性能 を示す
  • 他モデルと比べて 低価格 かつ 小さいモデルサイズ で同等の性能を提供

最もコスト効率の高い推論モデル

  • Gemini 2.5 Flash は 価格対性能が最も優れた推論モデル と評価されている
  • Google の 品質対コスト効率曲線(Pareto frontier) に新たに加わった

思考調整機能: thinking_budget

  • さまざまなユースケースに合わせて、品質、コスト、レイテンシの きめ細かな調整機能 を提供
  • thinking_budget は、モデルが思考に使える 最大トークン数 を意味する
    • 例: budget を高くすると品質は向上するが、コストとレイテンシは増加する
  • 思考が不要な単純な質問には 低い budget を自動適用
  • budget の範囲は 0 ~ 24,576 トークン で、AI Studio および Vertex AI でスライダーまたは API パラメータとして調整可能

思考レベルごとのプロンプト例

低レベルの推論が必要

  • “Thank you” in Spanish
  • カナダの州(Province)の数を尋ねる

中レベルの推論が必要

  • 2 個のサイコロを振って 7 が出る確率を計算
  • スケジュールに基づいて平日にバスケットボールを 5 時間できる時間割を作成

高レベルの推論が必要

  • 梁の機械工学的な応力計算問題
  • Excel スタイルの数式評価関数を作成する問題
    • 依存関係の解決、演算子優先順位、循環検出が必要

はじめに

  • Google AI Studio、Vertex AI、Gemini アプリで preview バージョンを利用可能
  • thinking_budget パラメータの実験を通じて 複雑な問題解決の可能性を探れる
  • コード例:
    from google import genai  
    
    client = genai.Client(api_key="GEMINI_API_KEY")  
    
    response = client.models.generate_content(  
      model="gemini-2.5-flash-preview-04-17",  
      contents="You roll two dice. What’s the probability they add up to 7?",  
      config=genai.types.GenerateContentConfig(  
        thinking_config=genai.types.ThinkingConfig(  
          thinking_budget=1024  
        )  
      )  
    )  
    
    print(response.text)  
    
  • 詳細は 開発者ドキュメントGemini Cookbook を参照
  • 今後さらに多くの機能が追加される予定で、正式リリース前まで継続的に改善予定

1件のコメント

 
GN⁺ 2025-04-18
Hacker Newsのコメント
  • GoogleがGemini 2.5 Pro(実験版)を無料で提供しているのは大きな出来事だった。私はOpenAIのより高価なモデルを使ったことがないので比較はできないが、過去に使ってきた無料モデルと比べると、Gemini 2.5 Proはかなりの進歩を見せている。このモデルは、私が扱うほとんどのトピックで私より賢く、私に同意しようとせず、むしろ議論を仕掛けてくる。今では私のカジュアルなAI利用はすべてGeminiに集中しており、深いテーマについて質問するのが楽しみだ。このモデルの価値を高める新しいツールも作っている

  • Geminiモデルでしばしば見過ごされる機能の1つは、API経由で直接Pythonコードを書いて実行できることだ。私のllm-geminiプラグインはこれをサポートしている: GitHubリンク。コード実行に追加料金はかからず、入力トークンと出力トークンに対してのみ課金される。たとえば、入力10、出力1,531で0.536セントかかった

  • Gemini flashモデルは最も注目されていないが、実運用ではコストパフォーマンスが最も高く、マルチモーダル機能も備えている。Googleは静かにAI競争で勝ちつつある

  • Gemini 2.5 Flashのドキュメントを深く掘ると見つかる隠れた情報: 画像入力に対して、このモデルは関連する対象の2Dバウンディングボックスを生成できるだけでなく、セグメンテーションマスクも生成できる。この価格帯でFlashモデルがセグメンテーションマスクを生成できるのはかなりすごい。セグメンテーションマスクは、マスクを表すb64文字列を生成することで実装されている

  • プログラマーではない私にとって、Googleは驚くほど優秀になってきている。最初から動くコードを出してくれる。ウェブサイトのデータをスクレイピングして分析するコードを書いてほしいと頼んだところ、実際にデータをスクレイピングして分析するコードを書いてくれた。基本的なデータ分類と集計ではあったが、それでも期待していなかった

  • Googleのさらなるイノベーション。OpenAIには大きな問題が2つある。1つ目は、Googleの垂直統合されたチップパイプラインと、AIチップを生産するのに必要な深いサプライチェーンおよび運用の知見だ。これはあらゆる段階で圧倒的なコスト優位をもたらす。2つ目は、データ不足と、継続的に更新される知識源としてのソーシャルメディアが持つ不公平な優位性だ。新しいデータはますます価値の高い差別化要因になっている。SamAはこれらの問題を認識しており、OpenAIが成功できるかどうかを左右する根本的な問題だと見ている

  • Gemini 2.0 Flashから50%の値上げ。大きく聞こえるが、Flashはこの品質帯の他モデルと比べれば依然として非常に安い

  • Python APIライブラリのコードで興味深い点を見つけた: GitHubリンク。thinking_budgetは文書化されているが、include_thoughtsが何なのかは理解しにくい。このオプションを使ってGeminiに思考要約を返させる方法は見つけられなかった

  • GoogleはAPIと無料のAI Studioを通じて印象的なモデルを提供している一方で、Geminiアプリで使われているモデルはずっと悪く見える。ここ数週間、WorkspaceアカウントでGemini Advancedを使ってきたが、モデルは考える時間が短く、出力も短く、コンテキストウィンドウも宣伝されている100万トークンにはほど遠いように見える。Googleは意図的にGeminiアプリを制限しているようだ

  • 社内PDF(3ページ、中程度の難易度)をjsonベンチマークとして実行した結果:

    • gemini-flash-2.0: 約60%の精度、6,250ページあたり1ドル
    • gemini-2.5-flash-preview(思考なし): 約80%の精度、1,700ページあたり1ドル
    • gemini-2.5-flash-preview(思考あり): 約80%の精度、350ページあたり1ドル
    • gemini-flash-2.5: 約90%の精度、150ページあたり1ドル
    • 思考ありのバリアントを通常版と分けてほしい。モデルのパラメータが価格に大きく影響する場合、とても混乱する