Gemini 2.5 Deep Think、Geminiアプリで利用可能
(blog.google)- Gemini 2.5 Deep Think 機能が Google AI Ultra 購読者向けとしてGeminiアプリに導入
- 新しい 並列思考(parallel thinking) 手法と研究成果が反映され、IMOで金メダルを受賞したモデルを基に、より実用的な利用に適した形へ改善
- 創造的問題解決、数学および科学的推論、アルゴリズム開発などさまざまな複雑な課題で優れた性能を発揮
- 性能向上のために**推論時間(Thinking Time)**を延長し、複数のアイデアと解法を同時に探索し、これによりより深い思考と創造的な成果物を生成
- 安全性と責任あるAI開発のために強化された評価と対策が実施され、今後APIおよびエンタープライズでの活用拡大が案内される
Gemini 2.5 Deep Thinkリリース
- Gemini 2.5 Deep Think 機能が Google AI Ultra 購読者向けに Geminiアプリを通じて提供
- 信頼されたテスターおよび研究者のフィードバックと最新研究成果が反映されたバージョン
- 最近の国際数学オリンピック(IMO)で金メダル級のモデルを基に、実際のユーザー体験に合わせて速度と実用性が改善
- 今回の公開により、創造的問題解決ツールとしての可能性を拡大し、数学者と研究者向けのフィードバックを基に機能を高度化する計画
Deep Thinkの動作原理
- 並列的思考手法を導入し、Geminiが複雑な問題に対して多様なアイデアと解法を同時に探索・比較・統合
- モデルの**推論時間(Thinking Time)**を増やし、複数の仮説を深く掘り下げてさらに創造的な解決策を見つけることが可能
- 強化学習により、これらの拡張された推論経路を積極的に活用するよう学習し、より直感的で深い問題解決能力を強化
Deep Thinkの主な性能と活用分野
- 段階的開発およびデザイン:複雑なシステムやデザインを段階的に発展させる作業で高性能を示す
- 科学および数学的発見:数学的推論や科学論文の解釈など高度な創造的探究で優位性を発揮
- アルゴリズムおよびコード開発:問題の構造化、時間計算量やトレードオフまで考慮する必要がある難しいコーディング問題で最先端の性能を達成
- 最新のベンチマーク(例:LiveCodeBench V6、Humanity’s Last Exam)で、既存モデルに対して最上位レベルのコード/知識/推論性能を実証
Geminiの責任ある開発と安全性
- Gemini 2.5 Deep Thinkは安全性評価において、既存Proモデルよりも改善されたコンテンツ安全性と客観的トーンを示す
- 複雑性の増加に伴いリスクも評価し、Frontier Safety評価と必要な対策を強化
- 詳細な安全性結果はモデルカードで確認可能
Deep Thinkの使用方法
- Google AI Ultra 購読者は、Geminiアプリのモデルドロップダウンから2.5 Proを選択し、プロンプトバーでDeep Thinkトグルを通じて1日あたりの上限回数で利用可能
- コード実行、Google検索などのツールと自動的に連携され、より長い回答生成が可能
- まもなくGemini APIおよびエンタープライズ向けの追加テストが予定されている
1件のコメント
Hacker Newsの意見
新しく出たDeep Think agentを試してみたが、5回プロンプトを入力しただけで1日の使用上限に達した。月額$250を払ってこの程度のサービスなら、かなり期待外れだ。o3-proやGrok 4 Heavyと比べて価格競争力が著しく低い。AIコミュニティでは、この機能こそがGoogle Ultraの購読価格を正当化できる唯一の要素として注目を集めていた。ところがGoogleはAI Studioでは最上位モデルを無料で提供しておきながら、実際にお金を払うUltra加入者にはこのような課金方針を取っていて、まったく理解できない。性能面では、ビジネス関連の高難度な問題状況を入力すると、明快で説得力のある解決策を提示してくれ、社内会議の結論とも一致する回答だった。ただ結局、o3もはるかに安い価格で似た結論を出してくれた。もっともo3のレポートは少し整理不足な印象だった。もう少し使ってみないと分からない気がする
みなさん、Gemini Deep Thinkに「自転車に乗ったペリカンのSVG画像を描いて」とプロンプトを入れたら出てきた結果です https://www.svgviewer.dev/s/5R5iTexQ Simon Willisonより先にやってみた!
自分で回してみたいなら、simonwのLLM cliとllm-consortiumプラグインが使える利点1: 複数モデルを自由に組み合わせて使える。研究所に関係なく、好きな組み合わせで設定可能利点2: llm-model-gatewayプラグインを活用して、一度にローカルAPIとして自分のアプリやコーディング協業ツールに接続できる https://x.com/karpathy/status/1870692546969735361
インストールとサンプルコマンド、さらにconsortium of consortiumも作れるという例まで自分で書いてくれている。
https://GitHub.com/irthomasthomas/llm-consortium
llm serveコマンドが見当たらないと言及している数週間前にIMO(国際数学オリンピック)で金メダルを取ったモデルではないが、ほぼそれに近い類似モデルだ https://x.com/OfficialLoganK/status/1951262261512659430まだAPIでは提供されていない
今回のアプローチはGrok 4 Heavyと似ている。複数の「推論」エージェントを並列で走らせてから、回答を相互比較し、最良の答えを選んで返す方式で、およそ30分かかる。結果は素晴らしいが、実質的にはGrok 4(単一エージェントでより高速なモデル)ではなく、Grok 4 Heavy基準でベンチマーク比較するのが公正だ
OpenAIが$200、Anthropicが$100・$200、Geminiは$250、Grokは$300まで価格を引き上げた。OpenAIだけが唯一「事実上無制限」と述べており、実際ChatGPT Proプランで上限に達したことはない。Claude Maxは何度も上限に引っかかった。なのに、こうした企業が上限を明確に公開しない理由が気になる
ここ数か月Geminiを使ってみて、むしろどんどん悪くなっていると感じる。幻覚(hallucination)があまりにも頻繁に出るし、それを指摘してもAIが意固地になる。信頼しにくくなった
Google AI Ultra加入者なら今日からGeminiアプリでDeep Think(固定されたプロンプト数が提供される)機能を使えるという案内が出ている。だが「固定セット」というのが固定された回数なのか、それともプロンプトの種類が決まっているという意味なのか、もう少し具体的に知りたい
Gemini CLIでスケジュールを組むとき、明確に何度も突飛な行動をしないよう指示して介入しても、勝手に変更を試みて計画を台無しにすることが多い