7 ポイント 投稿者 GN⁺ 2026-02-13 | 1件のコメント | WhatsAppで共有
  • 科学・研究・工学の問題解決を目的とした Google の AI モデル Gemini 3 Deep Think が大規模にアップグレード
  • 新バージョンは 科学者および研究者との協力 を通じて、不完全なデータや明確な正答がない複雑な問題を扱えるよう設計
  • 数学・プログラミング・物理・化学 など多様な分野の国際オリンピックおよびベンチマークで 金メダル級の性能 を達成
  • 実際の研究とエンジニアリング応用 を支援し、スケッチから 3D プリント可能なモデル生成 など実用的な機能を提供
  • Google AI Ultra の購読者と Gemini API 早期アクセスプログラム を通じて利用可能で、研究者・企業向けに拡大予定

Gemini 3 Deep Think の主な概要

  • Gemini 3 Deep Think は、科学・研究・工学分野の現代的な課題解決 のために設計された 専門推論モード
    • Google は科学者および研究者と緊密に協力し、明確な正答がない、あるいはデータが不完全な問題を扱う能力を強化
    • 理論的知識と実用的なエンジニアリング活用性 を組み合わせ、実際の応用を重視するモデルへと発展
  • 今回のアップグレードは Gemini アプリ を通じて Google AI Ultra 購読者に提供され、Gemini API を通じて研究者・エンジニア・企業が早期アクセスを申請可能

初期ユーザー事例

  • Rutgers University の数学者 Lisa Carbone は、高エネルギー物理学関連の数学論文レビューに Deep Think を活用し、人間のレビューを通過した論理的誤り を発見
  • Duke University の Wang Lab は、半導体材料探索のための複雑な結晶成長プロセスを最適化し、100μm 以上の薄膜成長レシピ を設計
  • Google Platforms & Devices 部門の Anupam Pathak は、物理部品設計の加速化のために Deep Think をテスト

数学的・アルゴリズム的精密性の向上

  • Deep Think は 国際数学オリンピック国際大学対抗プログラミングコンテスト で金メダル級の成果を記録
  • 最新バージョンは次のような 学術ベンチマークの最高水準 を達成
    • Humanity’s Last Exam: 48.4%(ツール未使用)
    • ARC-AGI-2: 84.6%(ARC Prize Foundation 検証)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: 金メダル級の性能
  • Deep Think は 数学的探究を行う専門エージェント の開発にも活用

複雑な科学領域の探索

  • 数学・プログラミングを超えて 化学・物理学など科学全般 でも性能が向上
    • 2025年 国際物理・化学オリンピック筆記部門 で金メダル級の結果を達成
    • 理論物理ベンチマーク CMT-Benchmark50.5% のスコア を記録
  • こうした性能は Deep Think の 科学的推論能力の拡張 を実証

実際のエンジニアリングを加速

  • Deep Think は 複雑なデータ解釈物理システムのモデリング を支援し、研究者やエンジニアの実務活用を目指す
  • Gemini API を通じて実際の研究環境でのアクセス性を拡大中
  • 例として、ユーザーは スケッチを入力して 3D プリント可能なモデル を生成でき、Deep Think がこれを分析・モデリング・ファイル生成まで実行

アクセスと利用方法

  • Google AI Ultra 購読者 は Gemini アプリですぐに Deep Think を利用可能
  • 研究者・エンジニア・企業 は Gemini API を通じた 早期アクセスプログラム への参加を申請可能
  • Google は Deep Think を通じて新たな科学的発見と応用事例が広がることを期待

1件のコメント

 
GN⁺ 2026-02-13
Hacker Newsの意見
  • Arc-AGI-2のスコアが 84.6% とは驚き
    公式ブログ記事を見ると、Gemini 3 Deep Thinkの詳細が載っている

    • 以前からGemini 3には、信じがたいほど 汎用的(general) だという印象を持っていた
      テキストの説明だけでBalatro(ante 8)に勝てた。人間には難しくないが、LLMが特定の訓練なしでやってのけるのは驚き
      Balatro Benchでテストしたが、Deepseekはこのゲームをまったくできない
    • わずか1年前まではこのベンチマークで1〜10%水準だったのに、今ではほぼ AGI級 と呼べるほどまで上がってきたのが信じられない
    • ARC-AGIのスコア上昇は興味深いが、これを 「一般知能」の飛躍 と見るのは行き過ぎ
      私はARC-AGIのGは「graphical」だと冗談を言っている。これまでモデルは空間推論(spatial reasoning)に弱かったが、今回はそれを解決したようだ
      ARC-AGI 3では 試行錯誤ベースのゲーム型課題 が追加されることを期待している
    • ARC Prizeリーダーボードを見ると、現在は課題あたり約$13.62のコストがかかる
      現実的には、実行コストが妥当な水準になるまでにはあと5〜10年はかかりそうだ
      ただ、モデルがベンチマークに 過剰適合(fitting) しているのではないかという疑問はある
    • 公平に比較するなら、GPT-5.x Proのような同格モデルと比べるべき
  • モデルのリリース速度が 異常に速くなっている感じ がする
    今日だけでもGemini 3 Deep ThinkとGPT 5.3 Codex Sparkが出ていて、数日前にはOpus 4.6、GLM5、MiniMax M2.5があった

    • 中国の旧正月シーズンが影響しているようだ
      中国の研究所がこの時期にモデルを出し、米国の研究所はDeepSeek R1(2025年1月20日)のようなインパクトを避けるために、より強力なモデルを急いで公開しているように見える
    • 最近はモデルの種類が多すぎて 区別するのすら難しい
      Gemini 3 Deep Thinkは完全に新しいモデルというより、Gemini 3 Proの上に 推論機能(subagent) を載せたバージョンのように見える
      OpenClawのような外部エージェントフレームワークにも接続できるので、「エージェントワークフロー」論争は大げさな気がする
    • ここ数週間は本当に 爆発的なリリース周期 だった
    • ひと言で表すなら Fast takeoff
  • Googleが完全に 先行している
    人々は出遅れたと思っていたが、それがかえって最高の戦略だった

    • モデルは印象的だが、製品品質はひどい
      Gemini web/CLIを2か月使ってみたが、会話の途中で文脈を見失い、空気質の改善を尋ねると文脈なしに空気清浄機の一覧だけを出してくる
      しかもロシアのプロパガンダサイトを引用したり、文の途中で中国語に切り替わったりもする
      この品質で月20ユーロは納得できない
    • 平時のGoogleは遅く官僚的だが、戦時モードのGoogle は驚くべき速さで動く
    • OpenAIが数時間後にまた何か出してくるだろうから、競争は楽しい
      ARC-AGI-2がLLMの限界だと言っていた人たちも、今度はまた基準を変えるだろう
      人間の努力の大半は「AIはまだAGIではない」と証明することに使われそうだ
    • それでも実際の 現実での実用性 では、Googleはまだ後れを取っている
      Gemini 3 Proには依然として問題が多い
  • 私はGemini 3 Proを使って 歴史文書のデジタル化プロジェクト を進めている
    1885〜1974年のドイツ語の手書き議事録をスキャンし、1ページずつ転写してから翻訳している
    約2,370ページを処理し、精度95%、APIコストは約$50程度だ
    手作業での検証は必要だが、時間節約効果 は非常に大きい

    • 1回のパスでも十分かもしれないので、検証後に全体効率をもう一度評価してみる必要がある
  • 私の直感では、モデルには3つのスペクトラムがある
    非思考型思考型、そして best-of-N型(Deep Think, GPT Pro)
    それぞれ計算複雑性が線形、二乗、三乗程度に増えていく
    思考型は scratchpadの作成 が必要な問題を解ける

    • 次の段階は エージェント群(agent swarm) になりそうだ
      マネージャーモデルがプロンプトを受け取り、複数の下位エージェントを生成して並列に試行し、結果を評価・再配分する構造だ
    • best-of-Nモデルでは 長いコンテキストの活用 が核心だ
      Googleは2.5バージョンから長文脈を実用的にうまく扱っている
      pass@Nの概念も興味深く、セキュリティ脆弱性の探索や最適化問題のような 時間をお金に変える探索型作業 に向いている
    • 大きな非思考型モデルが小さな思考型モデルと同じ性能を出せるのかという問いに対しては、Anthropicのモデル群がよい例だ
      この画像では、Opus 4.6が思考なしでも高い性能を示している
  • すべてのベンチマークの 評価手法PDFこちらにある
    ARC-AGI-2のスコア84.6%は semi-privateセット 基準で、
    privateセットで85%を超えると「solved」と見なされ $700Kの賞金 が与えられる
    ARC Prizeガイド参照

    • 文書タイトルが「Gemini 3.1 Pro」になっているのを見ると、まもなく新バージョンが出そうだ
    • ただしprivateセットで85%を超えるのは難しそうだ。それは データ流出 を意味する可能性があるからだ
  • 最近のモデルは 進化が速すぎて、自分の仕事が3〜5年以内になくなるかもしれないと感じる
    もうLLMが自分自身を改善する段階に入ったようだ

  • OpenRouterにないのが残念
    最近の上位 Deep Thinkモデル は自社プラットフォームでしか使えないように囲い込まれている

    • OpenRouterも良いが、litellm は単純なPythonライブラリなのでよりすっきりしている
      litellmドキュメント参照
    • ただ、もう 黄金時代(golden age) は終わったような感じがする
  • Geminiはいつも 知識は豊富だが柔軟性に欠けるモデル のように感じられた
    台本の外にある要求には簡単に崩れる

    • 実際には、こうした体験は ユーザーの適応度 の問題かもしれない
      私はGoogleモデルを長く使ってきたせいか、OpenAIモデルの方がずっと駄目だと感じた
      逆にOpenAIユーザーも同じ理由で自分のモデルが最高だと感じるだろう
    • ある意味ではGeminiは 自分なりのやり方で考えるモデル のようだ
      まだ試せてはいないが、命令追従能力は改善しているかもしれない
  • モデル進化の速度が速すぎて驚く
    そろそろ壁にぶつかると思っていたのに、新モデルが 既存ベンチマークを完全に打ち壊している

    • ただ、企業が ベンチマークスコアの最適化 に集中するようになった結果、実性能との相関はますます弱くなっている