- 科学・研究・工学の問題解決を目的とした Google の AI モデル Gemini 3 Deep Think が大規模にアップグレード
- 新バージョンは 科学者および研究者との協力 を通じて、不完全なデータや明確な正答がない複雑な問題を扱えるよう設計
- 数学・プログラミング・物理・化学 など多様な分野の国際オリンピックおよびベンチマークで 金メダル級の性能 を達成
- 実際の研究とエンジニアリング応用 を支援し、スケッチから 3D プリント可能なモデル生成 など実用的な機能を提供
- Google AI Ultra の購読者と Gemini API 早期アクセスプログラム を通じて利用可能で、研究者・企業向けに拡大予定
Gemini 3 Deep Think の主な概要
- Gemini 3 Deep Think は、科学・研究・工学分野の現代的な課題解決 のために設計された 専門推論モード
- Google は科学者および研究者と緊密に協力し、明確な正答がない、あるいはデータが不完全な問題を扱う能力を強化
- 理論的知識と実用的なエンジニアリング活用性 を組み合わせ、実際の応用を重視するモデルへと発展
- 今回のアップグレードは Gemini アプリ を通じて Google AI Ultra 購読者に提供され、Gemini API を通じて研究者・エンジニア・企業が早期アクセスを申請可能
初期ユーザー事例
- Rutgers University の数学者 Lisa Carbone は、高エネルギー物理学関連の数学論文レビューに Deep Think を活用し、人間のレビューを通過した論理的誤り を発見
- Duke University の Wang Lab は、半導体材料探索のための複雑な結晶成長プロセスを最適化し、100μm 以上の薄膜成長レシピ を設計
- Google Platforms & Devices 部門の Anupam Pathak は、物理部品設計の加速化のために Deep Think をテスト
数学的・アルゴリズム的精密性の向上
- Deep Think は 国際数学オリンピック と 国際大学対抗プログラミングコンテスト で金メダル級の成果を記録
- 最新バージョンは次のような 学術ベンチマークの最高水準 を達成
- Humanity’s Last Exam: 48.4%(ツール未使用)
- ARC-AGI-2: 84.6%(ARC Prize Foundation 検証)
- Codeforces: Elo 3455
- International Math Olympiad 2025: 金メダル級の性能
- Deep Think は 数学的探究を行う専門エージェント の開発にも活用
複雑な科学領域の探索
- 数学・プログラミングを超えて 化学・物理学など科学全般 でも性能が向上
- 2025年 国際物理・化学オリンピック筆記部門 で金メダル級の結果を達成
- 理論物理ベンチマーク CMT-Benchmark で 50.5% のスコア を記録
- こうした性能は Deep Think の 科学的推論能力の拡張 を実証
実際のエンジニアリングを加速
- Deep Think は 複雑なデータ解釈 と 物理システムのモデリング を支援し、研究者やエンジニアの実務活用を目指す
- Gemini API を通じて実際の研究環境でのアクセス性を拡大中
- 例として、ユーザーは スケッチを入力して 3D プリント可能なモデル を生成でき、Deep Think がこれを分析・モデリング・ファイル生成まで実行
アクセスと利用方法
- Google AI Ultra 購読者 は Gemini アプリですぐに Deep Think を利用可能
- 研究者・エンジニア・企業 は Gemini API を通じた 早期アクセスプログラム への参加を申請可能
- Google は Deep Think を通じて新たな科学的発見と応用事例が広がることを期待
1件のコメント
Hacker Newsの意見
Arc-AGI-2のスコアが 84.6% とは驚き
公式ブログ記事を見ると、Gemini 3 Deep Thinkの詳細が載っている
テキストの説明だけでBalatro(ante 8)に勝てた。人間には難しくないが、LLMが特定の訓練なしでやってのけるのは驚き
Balatro Benchでテストしたが、Deepseekはこのゲームをまったくできない
私はARC-AGIのGは「graphical」だと冗談を言っている。これまでモデルは空間推論(spatial reasoning)に弱かったが、今回はそれを解決したようだ
ARC-AGI 3では 試行錯誤ベースのゲーム型課題 が追加されることを期待している
現実的には、実行コストが妥当な水準になるまでにはあと5〜10年はかかりそうだ
ただ、モデルがベンチマークに 過剰適合(fitting) しているのではないかという疑問はある
モデルのリリース速度が 異常に速くなっている感じ がする
今日だけでもGemini 3 Deep ThinkとGPT 5.3 Codex Sparkが出ていて、数日前にはOpus 4.6、GLM5、MiniMax M2.5があった
中国の研究所がこの時期にモデルを出し、米国の研究所はDeepSeek R1(2025年1月20日)のようなインパクトを避けるために、より強力なモデルを急いで公開しているように見える
Gemini 3 Deep Thinkは完全に新しいモデルというより、Gemini 3 Proの上に 推論機能(subagent) を載せたバージョンのように見える
OpenClawのような外部エージェントフレームワークにも接続できるので、「エージェントワークフロー」論争は大げさな気がする
Googleが完全に 先行している
人々は出遅れたと思っていたが、それがかえって最高の戦略だった
Gemini web/CLIを2か月使ってみたが、会話の途中で文脈を見失い、空気質の改善を尋ねると文脈なしに空気清浄機の一覧だけを出してくる
しかもロシアのプロパガンダサイトを引用したり、文の途中で中国語に切り替わったりもする
この品質で月20ユーロは納得できない
ARC-AGI-2がLLMの限界だと言っていた人たちも、今度はまた基準を変えるだろう
人間の努力の大半は「AIはまだAGIではない」と証明することに使われそうだ
Gemini 3 Proには依然として問題が多い
私はGemini 3 Proを使って 歴史文書のデジタル化プロジェクト を進めている
1885〜1974年のドイツ語の手書き議事録をスキャンし、1ページずつ転写してから翻訳している
約2,370ページを処理し、精度95%、APIコストは約$50程度だ
手作業での検証は必要だが、時間節約効果 は非常に大きい
私の直感では、モデルには3つのスペクトラムがある
非思考型、思考型、そして best-of-N型(Deep Think, GPT Pro) だ
それぞれ計算複雑性が線形、二乗、三乗程度に増えていく
思考型は scratchpadの作成 が必要な問題を解ける
マネージャーモデルがプロンプトを受け取り、複数の下位エージェントを生成して並列に試行し、結果を評価・再配分する構造だ
Googleは2.5バージョンから長文脈を実用的にうまく扱っている
pass@Nの概念も興味深く、セキュリティ脆弱性の探索や最適化問題のような 時間をお金に変える探索型作業 に向いている
この画像では、Opus 4.6が思考なしでも高い性能を示している
すべてのベンチマークの 評価手法PDF はこちらにある
ARC-AGI-2のスコア84.6%は semi-privateセット 基準で、
privateセットで85%を超えると「solved」と見なされ $700Kの賞金 が与えられる
ARC Prizeガイド参照
最近のモデルは 進化が速すぎて、自分の仕事が3〜5年以内になくなるかもしれないと感じる
もうLLMが自分自身を改善する段階に入ったようだ
OpenRouterにないのが残念
最近の上位 Deep Thinkモデル は自社プラットフォームでしか使えないように囲い込まれている
litellmドキュメント参照
Geminiはいつも 知識は豊富だが柔軟性に欠けるモデル のように感じられた
台本の外にある要求には簡単に崩れる
私はGoogleモデルを長く使ってきたせいか、OpenAIモデルの方がずっと駄目だと感じた
逆にOpenAIユーザーも同じ理由で自分のモデルが最高だと感じるだろう
まだ試せてはいないが、命令追従能力は改善しているかもしれない
モデル進化の速度が速すぎて驚く
そろそろ壁にぶつかると思っていたのに、新モデルが 既存ベンチマークを完全に打ち壊している