2 ポイント 投稿者 GN⁺ 2025-08-02 | 1件のコメント | WhatsAppで共有
  • Gemini 2.5 Deep Think 機能が Google AI Ultra 購読者向けとしてGeminiアプリに導入
  • 新しい 並列思考(parallel thinking) 手法と研究成果が反映され、IMOで金メダルを受賞したモデルを基に、より実用的な利用に適した形へ改善
  • 創造的問題解決、数学および科学的推論、アルゴリズム開発などさまざまな複雑な課題で優れた性能を発揮
  • 性能向上のために**推論時間(Thinking Time)**を延長し、複数のアイデアと解法を同時に探索し、これによりより深い思考と創造的な成果物を生成
  • 安全性と責任あるAI開発のために強化された評価と対策が実施され、今後APIおよびエンタープライズでの活用拡大が案内される

Gemini 2.5 Deep Thinkリリース

  • Gemini 2.5 Deep Think 機能が Google AI Ultra 購読者向けに Geminiアプリを通じて提供
  • 信頼されたテスターおよび研究者のフィードバックと最新研究成果が反映されたバージョン
  • 最近の国際数学オリンピック(IMO)で金メダル級のモデルを基に、実際のユーザー体験に合わせて速度と実用性が改善
  • 今回の公開により、創造的問題解決ツールとしての可能性を拡大し、数学者と研究者向けのフィードバックを基に機能を高度化する計画

Deep Thinkの動作原理

  • 並列的思考手法を導入し、Geminiが複雑な問題に対して多様なアイデアと解法を同時に探索・比較・統合
  • モデルの**推論時間(Thinking Time)**を増やし、複数の仮説を深く掘り下げてさらに創造的な解決策を見つけることが可能
  • 強化学習により、これらの拡張された推論経路を積極的に活用するよう学習し、より直感的で深い問題解決能力を強化
広告

Deep Thinkの主な性能と活用分野

  • 段階的開発およびデザイン:複雑なシステムやデザインを段階的に発展させる作業で高性能を示す
  • 科学および数学的発見:数学的推論や科学論文の解釈など高度な創造的探究で優位性を発揮
  • アルゴリズムおよびコード開発:問題の構造化、時間計算量やトレードオフまで考慮する必要がある難しいコーディング問題で最先端の性能を達成
  • 最新のベンチマーク(例:LiveCodeBench V6、Humanity’s Last Exam)で、既存モデルに対して最上位レベルのコード/知識/推論性能を実証

Geminiの責任ある開発と安全性

  • Gemini 2.5 Deep Thinkは安全性評価において、既存Proモデルよりも改善されたコンテンツ安全性客観的トーンを示す
  • 複雑性の増加に伴いリスクも評価し、Frontier Safety評価と必要な対策を強化
  • 詳細な安全性結果はモデルカードで確認可能

Deep Thinkの使用方法

  • Google AI Ultra 購読者は、Geminiアプリのモデルドロップダウンから2.5 Proを選択し、プロンプトバーでDeep Thinkトグルを通じて1日あたりの上限回数で利用可能
  • コード実行、Google検索などのツールと自動的に連携され、より長い回答生成が可能
  • まもなくGemini APIおよびエンタープライズ向けの追加テストが予定されている

1件のコメント

 
GN⁺ 2025-08-02
Hacker Newsの意見
  • 新しく出たDeep Think agentを試してみたが、5回プロンプトを入力しただけで1日の使用上限に達した。月額$250を払ってこの程度のサービスなら、かなり期待外れだ。o3-proやGrok 4 Heavyと比べて価格競争力が著しく低い。AIコミュニティでは、この機能こそがGoogle Ultraの購読価格を正当化できる唯一の要素として注目を集めていた。ところがGoogleはAI Studioでは最上位モデルを無料で提供しておきながら、実際にお金を払うUltra加入者にはこのような課金方針を取っていて、まったく理解できない。性能面では、ビジネス関連の高難度な問題状況を入力すると、明快で説得力のある解決策を提示してくれ、社内会議の結論とも一致する回答だった。ただ結局、o3もはるかに安い価格で似た結論を出してくれた。もっともo3のレポートは少し整理不足な印象だった。もう少し使ってみないと分からない気がする

    • 完全に商用化準備や最適化が済んだわけではないが、8月2日に施行される欧州連合AI法(EU AI Act)の前にリリースして、2年間かけて基準に適合させようという戦略なのかもしれない。だから一部の少数ユーザーに強い利用制限をかけたうえで先行公開した可能性が高いと思う
    • 大容量contextが必要な作業でのDeep Thinkの性能が気になる。Parallel thinking(並列的思考)は特定の問題タイプに非常に有用かもしれないので、従来のchain of thoughtでは扱いきれない、より多くの文脈を処理できるのか実験してみたい
    • 数年前は、コーディング力の尺度として、インターネット検索を使わない、あるいはStackOverflowのような場所にうまく整理した質問を投稿してから自分で答えを書く習慣を持っていた。時には「3日間さまよったけどこの回答が人生を救ってくれた」といったコメントが付くと、とても誇らしかった。今週ずっと難しい問題を解いているが、それでもCopilot系のAIモデルはほとんど役に立たない。コーディングにおける実力とは、誰にも(AIにさえ)助けてもらえないときに、自分で一般化、総合、創造的発想を総動員して初めて実感するものだ。(だからAIコーディングagentに完全に置き換えられるまでには、まだ少し時間がかかると自分を慰めている)
    • Grok 4と4 Heavyの両モデルを使ってみたが、自分の経験では本当にひどい。どれだけ多くクエリを投げられても、応答がひどければ何の意味もない。今年LLMに使ったお金の中で最悪だった。いろいろなAIにかなり投資したが、Grokに使った金がいちばん惜しい
    • Googleが最上位モデルをAI Studioで無料提供しながら、実際の顧客には雀の涙ほどの恩恵しか与えないのを見ると驚かされることが多い。とはいえ、こういう姿勢自体はまったく意外ではない。おそらくGoogleはAI Ultra顧客から大きな利益を上げているわけではなく、AI Studioの無料ティアで得られる大量のユーザーデータのほうを重視しているのだと思う。最上位モデルを無料で開放すれば、最も要求水準の高いユーザー層の市場シェアを簡単に獲得できる。そして将来的には彼らに対して課金政策を展開できるので、現在Googleが保有する遊休サーバーを有効活用するうえでもよい戦略だ
  • みなさん、Gemini Deep Thinkに「自転車に乗ったペリカンのSVG画像を描いて」とプロンプトを入れたら出てきた結果です https://www.svgviewer.dev/s/5R5iTexQ Simon Willisonより先にやってみた!

    • HNでミーム化するものは、必ず学習データに入る運命だ。AI企業ごとにインターンが1人ずつ、かっこいいペリカンSVGを描くために汗だくになっている姿を想像すると面白い
    • たった今結果を見たが、確かにペリカンに見えるので驚いた。かなりいい
    • こうしたミーム系ベンチマーク(いちごの絵など)は面白いけれど、最近のモデル学習にあまりに多く入り込んでいるので、簡単にごまかせる測定方法だ
    • 本当に未来に生きていると感じさせる価値だ
    • 正直、初めて「これならプロンプト抜きでSVGだけ見ても自転車に乗ったペリカンだと分かる」と言えそうな出来だ。ここにvocal towerの事例も印象的だ。視覚・空間認識の面ではかなりの成果だと思う
  • 自分で回してみたいなら、simonwのLLM cliとllm-consortiumプラグインが使える利点1: 複数モデルを自由に組み合わせて使える。研究所に関係なく、好きな組み合わせで設定可能利点2: llm-model-gatewayプラグインを活用して、一度にローカルAPIとして自分のアプリやコーディング協業ツールに接続できる https://x.com/karpathy/status/1870692546969735361
    インストールとサンプルコマンド、さらにconsortium of consortiumも作れるという例まで自分で書いてくれている。
    https://GitHub.com/irthomasthomas/llm-consortium

    • なぜこれをGemini Deep Thinkのローカル版と呼ぶのか気になる。マルチエージェント構造はさまざまな方法で実装できるのではないかと思う。そして多数モデルのcovariance(共分散)のために誤りが同期する可能性があるので、多様な構造の組み合わせによって誤り相関を下げつつ個別精度を維持することが、性能最適化に重要だと思う。解が複数存在するベンチマークでこれを実験してみたい
    • 欧州連合(EU)はconsortium of consortiums(コンソーシアムのコンソーシアム)なのだろうか
    • こうした機能をサポートするOpenWebUIプラグインがあるなら教えてほしいと依頼している
    • llm serveコマンドが見当たらないと言及している
  • 数週間前にIMO(国際数学オリンピック)で金メダルを取ったモデルではないが、ほぼそれに近い類似モデルだ https://x.com/OfficialLoganK/status/1951262261512659430まだAPIでは提供されていない

  • 今回のアプローチはGrok 4 Heavyと似ている。複数の「推論」エージェントを並列で走らせてから、回答を相互比較し、最良の答えを選んで返す方式で、およそ30分かかる。結果は素晴らしいが、実質的にはGrok 4(単一エージェントでより高速なモデル)ではなく、Grok 4 Heavy基準でベンチマーク比較するのが公正だ

    • 同じ推論計算パワーを複数エージェントに分散したほうが、より良い成果が出る。「長く考えるほど回答が悪くなる」問題も、複数の思考経路を並列に短く走らせることで克服できる
    • 記事ではDeep Thinkは並列的思考方式によってさまざまなアイデアを同時に生成、同時に考慮、統合、修正して最終解に到達すると説明していた。この説明だけではマルチエージェント活用の有無が明確ではなく、いくつかの解釈の余地があると思う
    • Grok-4 heavyはツールを使ってベンチマークに出る多くの問題を容易に解く構造なので、直接比較には限界がある
    • Googleの方式がMixture of Experts(専門家混合)とどう違うのか気になる。Mixture of Expertsは各専門家ごとに重みを変えて学習するが、ここではtemperature調整だけで思考の多様性を得ている。同一モデルを複数回回してアイデアの多様性を得る方法と、そもそもアーキテクチャや重みの異なる複数モデルを同時に回す方法のどちらが良いのか、論文で正確に比較した資料があるのか気になる
    • まだ主要LLMを一種の対戦形式で一か所に走らせて最終回答を選ぶアプリが出ていないのは意外だ
  • OpenAIが$200、Anthropicが$100・$200、Geminiは$250、Grokは$300まで価格を引き上げた。OpenAIだけが唯一「事実上無制限」と述べており、実際ChatGPT Proプランで上限に達したことはない。Claude Maxは何度も上限に引っかかった。なのに、こうした企業が上限を明確に公開しない理由が気になる

    • 二重課金が目的だ。公正な価格ならクエリごとのトークン単位で料金を表示し、使った分だけ払えばいい。しかし企業は定期的な固定収入を望み、実使用量は最小化したいので、月額または年額で無制限のように売る。結局、実際の使用量より高く払わせる構造だ
    • 上限を事前に公開しない本当の理由は、市場状況やインフラ負荷に応じて企業側が上限を柔軟に調整できる必要があるからだ。以前のChatGPT画像生成(Ghibli craze)のように突発的にトラフィックが殺到したときは制限をかけ、今のように余裕があるときは緩められる
    • 上限を透明化すると、ユーザーがその上限に合わせて抜け道を使い始め、そうなると結局は全員の上限がさらに減ってしまう。だから公開しないほうが、実際には大半の人にとってよりよい選択だ
  • ここ数か月Geminiを使ってみて、むしろどんどん悪くなっていると感じる。幻覚(hallucination)があまりにも頻繁に出るし、それを指摘してもAIが意固地になる。信頼しにくくなった

    • 自分の経験ではFlashはどんどん良くなっている。Proに課金しているのに、Flashをより頻繁に使っている。Proは最新情報をほとんど検索せず、古い学習データばかり繰り返すことが多くて失望するが、Flashにはこの問題がほぼない。コーディングではProをGemini CLIで活用しているが、単なるコード作成だけでなく、設計文書の作成、週単位の課題分解、スケジュール管理などで驚くほどの実力を見せる。このように体系的な構造だけ与えてやれば、自分のコンテキストも勝手に拾ってくれる感じだ
    • 私も似た経験だ。Gemini Proはもう使っていない。あまりに冗長で内容が矛盾している。Claude Sonnet 4はうまく答えてくれる。最近のSonnetはOpusとの実力差がかなり縮まった印象だ。新しいクォータ制が導入されてからは、まずSonnetから使うようになった。今ではOpusと比べても、難しい問題や複雑な問題の大半をうまく解決してくれる。ほんの数か月前まではここまでとは感じなかった
    • 自分もGeminiがだんだん悪くなっていると感じる。ただ、fiction.livebenchのようなベンチマークではその差を数値化しにくい。もしかしてモデルを過度にaggressive quantizing(性能低下を伴う量子化)しているのか、それともこちらの期待値が上がり続けているだけなのか気になる
    • 主にツール連携の問題なのか、そしてAI studioで使っているのかそれともAPIで使っているのか聞きたい。自分が使った限りでは、使えないツールをでっち上げたり、結果に過剰な自信を見せたりすることが多かった
  • Google AI Ultra加入者なら今日からGeminiアプリでDeep Think(固定されたプロンプト数が提供される)機能を使えるという案内が出ている。だが「固定セット」というのが固定された回数なのか、それともプロンプトの種類が決まっているという意味なのか、もう少し具体的に知りたい

    • 1日10回のリクエストが上限だ。1つのプロンプトに約30分かけて考えるので、一般的なコーディングやファンフィクション執筆よりも、研究や多層的な統合問題に特化している
  • Gemini CLIでスケジュールを組むとき、明確に何度も突飛な行動をしないよう指示して介入しても、勝手に変更を試みて計画を台無しにすることが多い

    • こうしたエージェント系は、むしろしばしば混乱を引き起こす。Claude Code(Anthropic)はモデル性能を最大限引き出す方式を取っているので人気だ。ところがGemini CLIは、むしろGemini Pro 2.5本来の性能を低下させてしまう。だからもうGemini CLIは完全に見限った(無料でも)。ただし、プロンプト中心の作業では依然として非常に強力なので、定期的に活用している
    • 私も似ている。Gemini CLIに抽象的で大きな課題をそのまま任せると、しょっちゅうミスを連発する。だが、明確な構造(コンテキスト生成を段階ごとに分離すること)だけ少し与えれば、本当に驚くような成果が出る。最初の段階ではコードを読み、要件定義書を書くことだけを指示する。その後、その成果物をもとに詳細な要件仕様書やAPI設計、tricky logicの疑似コードなども段階的に文書化するよう求める。最後に全体開発を週・日・時間ごとの業務プランに分解させ、十分な情報を投入したうえで最終的にコードを書かせる。完全自動化すればスクリプト化もできるだろうが、実際には人間がレビューしてフィードバックしながらブレインストーミングを繰り返す形のほうが効果的だ。コンテキストの90%以上を自力で生成しつつ、最近はこの方法なら大半のミスをほとんどしなくなっている