4 ポイント 投稿者 GN⁺ 2026-02-20 | 4件のコメント | WhatsAppで共有
  • 複雑なタスクを処理するための高度なマルチモーダルAIモデルで、単純な回答を超えた問題解決を目指す
  • ARC-AGI-2ベンチマークで77.1%の検証スコアを記録し、従来の3 Pro比で2倍以上の推論性能を達成
  • データ統合、視覚的説明、創造的コーディングなどの高難度タスクで向上した推論力を発揮
  • テキスト、音声、画像、動画、コードリポジトリなど多様な入力形式を処理し、最大100万トークンのコンテキストと64Kトークン出力をサポート
  • Googleは今回のプレビューを通じてエージェント型ワークフローの高度化と今後の一般公開に向けた検証を進めている

Gemini 3.1 Pro 概要

  • Gemini 3.1 Proは複雑なタスクを処理するための高度なマルチモーダルAIモデルで、単純な回答を超えた問題解決を目指す
    • GoogleはこれをGemini 3 Deep Thinkの成果を可能にした中核的な知能アップグレードとして位置づけている
    • テキスト、音声、画像、動画、コードリポジトリなどマルチモーダル入力を処理
    • 最大100万トークンのコンテキストウィンドウと64Kトークン出力をサポート
    • 今回のバージョンはコンシューマー向け、開発者向け、企業向け製品全般に順次展開中
  • 展開経路は次のとおり

性能とベンチマーク

  • Gemini 3.1 Proは**推論能力(reasoning)**を中心とした改善により、複雑な問題解決に最適化されている
    • ARC-AGI-2ベンチマークで77.1%の検証スコアを記録し、従来の3 Pro比で2倍以上の性能向上
    • 主な性能比較結果(Gemini 3 Pro比):
      • ARC-AGI-2: 77.1% (vs 31.1%)
      • GPQA Diamond: 94.3% (vs 91.9%)
      • Terminal-Bench 2.0: 68.5% (vs 56.9%)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: 85.9% (vs 59.2%)
    • これらのベンチマークは、まったく新しい論理パターンを解くモデルの能力を評価する
  • Googleはこれを「より賢く有能な基盤モデル」と位置づけ、複雑な問題解決の土台として提示している

実際の活用事例

  • Gemini 3.1 Proは高度な推論を実用的な形で適用し、多様な応用可能性を示している
    • 視覚的説明の生成: 複雑なテーマを明確かつ視覚的に説明する機能
    • データ統合: 複数のデータを1つの統合ビューに合成
    • 創造的プロジェクトの実装: 芸術的・デザイン的なアイデアをコードで実装
  • 具体例
    • コードベースのアニメーション: テキストプロンプトでWebサイト向けのSVGアニメーションを生成し、解像度劣化なしでファイルサイズを最小化
    • 複雑なシステム統合: **国際宇宙ステーション(ISS)**の軌道をリアルタイムで可視化するダッシュボードを構築
    • インタラクティブデザイン: 3Dムクドリの群れシミュレーションをコーディングし、ハンドトラッキングと音楽反応型インターフェースを実装
    • 創造的コーディング: **『嵐が丘』**の文学的な雰囲気を反映したモダンなポートフォリオWebサイトを設計

展開とアクセス

  • Gemini 3.1 Proは**プレビュー(preview)**形式で公開され、ユーザーフィードバックを収集中
    • Google AI ProおよびUltraプランのユーザーはGeminiアプリでより高い使用上限を利用可能
    • NotebookLMではProおよびUltraユーザーに独占提供
    • 開発者と企業はAI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI、Android Studioを通じて利用可能

今後の計画

  • GoogleはGemini 3 Proのリリース後も速い改善ペースを維持しており、今回の3.1 Proプレビューを通じてアップデートの検証とエージェント型ワークフローの拡張を進めている
  • 一般公開(GA)は検証完了後に行われる予定で、Googleは「ユーザーがこのモデルで何を作り、何を発見するのか楽しみにしている」と述べている

4件のコメント

 
jwh926 2026-02-20

早くコーディング性能でClaude Opusに追いついてほしいですね。

 
ifmkl 2026-02-20

そうですね。3.0 previewモデルがCLIに上がってきて使った初日はすごく良くて、ブログに感想も書いたりしたんですが、、急激に……おかげで今はcodex、claude codeを中心に使っています。とはいえclaudeもちょっと……4.6 opusやsonnetが良さそうか見て、そうでなければコードはcodex、それ以外の各種業務用としてgeminiで固めようかと思っています..

 
GN⁺ 2026-02-20
Hacker Newsの反応
  • Gemini 3.1 Proには本当に期待している
    これまではほとんど常にClaude寄りだったが、Claude Opusは特にコーディングで優れている
    Geminiもほぼ素晴らしいが、まだClaudeの水準には達していない
    毎月ChatGPT Plus ↔ Gemini Pro ↔ Claudeを交互に契約して、各モデルの長所を取りこぼさないようにしている

  • 元Google社員として、Gemini 3.1 Proが3.0より良くなることを願っている
    ただ、開発用途ではGeminiが最ももどかしいモデルだった
    Claude OpusはVS Code Copilotで思考の流れと応答のバランスが取れているのに、Geminiはthinking tokenばかり使って結果を説明しない
    しばしばループに陥り、ツールの使い方も拙く、ファイルを見当違いに修正する
    そのため「計画はGemini、実行はClaude」という戦略を使っていたが、結局Claudeだけ使うようになった
    Anthropicが実プロジェクト中心にモデルを磨き込む一方で、Googleは実使用でのテストが不足しているように見える

    • 私のプロジェクトは色空間の数学が多いのだが、Gemini 3 Proは初歩的な型エラーをよく起こす
      int8をfloatと取り違えたり、正規化の有無を忘れたりする
      まるで記憶力の弱い人のように感じる
      それでもアーキテクチャ設計の議論にはかなり役立つ
    • Gemini 3をOpenclawで使ったときは、1時間あたり10〜20ドル、1プロンプトあたり1.5〜3ドルかかった
      非効率の極みだった
    • モデルの性能は結局チューニングとツール統合にかかっている
      Claudeは「コーディングの過程」そのものを学習したような印象で、Anthropicはユーザーフィードバックをチューニングに反映しているように見える
      Googleは汎用モデルを目指しているぶん、「何でも少しずつできるが、何一つ完璧ではない」状態に見える
    • Gemini 3.0は私にとって使い物にならないレベルだった
      ClaudeやCodexは問題への取り組み方を説明するが、Geminiはいきなり実行してしまう
      修正依頼を無視し、ワークスペースを汚染する
      無料で使えるにもかかわらず、ほとんど使わない
      Anthropicは早い段階で「ユーザーが制御できなければならない」と気付いていたようだ
    • Geminiはagenticな作業に弱い
      OpenAIはClaude並みに追いついてきたが、Googleはまだ遠い
  • 人々はGoogleのコスト効率を過小評価している
    Opusの半額なのに、性能はかなり良い
    Artificial Analysisの指標によると、3.1はOpusより40%安く、30%速い

    • ただし、「1セントの凡庸な回答より2セントの優れた回答のほうがいい」という見方もある
      開発用途なら月300ドルでも最高のモデルを使う価値がある
      消費者向けAIではこの計算は変わってくるだろう
    • もちろん仕事をまともにこなせないなら、半額でも意味はない
      それでも性能が追いつくなら、価格競争力は魅力的だ
    • Opusが20%良いコードを書くなら、実プロジェクトではその差は大きい
      だが性能が近いなら、50%のコスト削減は大きな利点だ
    • Geminiはベンチマーク成績も良く、DeepMindのエンジニアたちも優秀だ
      個人的には仕事でも趣味のコーディングでもうまく機能している
      それなのにコミュニティでは酷評が多く、不思議に思う
    • DeepseekはOpusの2%の価格だが、ほとんどの人はコーディング用途には使っていない
  • 最近のモデルは強力すぎる
    以前よりはるかに短時間で完全なソフトウェアを作れる
    しかしバージョン間の挙動差が大きすぎて、毎月新しいチームを管理している気分だ
    モデルが予告なく差し替えられたり微妙に変わったりすることもあり、不安定な土台のように感じる

    • Opus 4.6が、以前o4-miniでは解けなかった問題を解決した
      sqlite-chronicleのissueで確認できる
      その後、複数のプロジェクトで詰まっていた箇所も解消した
    • Anthropic、Google、OpenAIのモデルをすべて使ってみたが、完成品を作るにはまだ不十分だ
      それでもアイデア出しやコードベースの立ち上げには十分使える
    • GPT 5.1 codex maxで作ったアプリは今でも問題なく動いている
      同じコードでも、それを作ったモデル自身のほうが再び扱いやすいという自己一貫性があるようだ
    • 実際には「天才的だが風変わりなエンジニア」を管理している感覚だ
      それでもなお驚異的な技術ではある
    • 「寿司一食分の値段で天才エンジニアを1カ月雇える」という表現に対して、「それで作るのが電卓なのか」という冗談も出ていた
  • Gemini 3.1 Proの価格は据え置き
    入力$2/M、出力$12/Mで、公式ドキュメントに明記されている
    ナレッジカットオフは2025年1月で、新たに「medium thinking」モードが追加された
    Opus 4.6の$5/$25と比べると価格差は大きい

    • 企業向けCLIエージェントを使うには、Googleの複雑な手続きが問題になる
      IAMルール設定、課金、製品名の把握などでつまずく
      OpenAIやAnthropicははるかに簡単だ
      それでも月額料金は似たようなものだ
    • Vendor-Bench 2で長期推論性能が改善されないなら、CCから移るつもりはない
      Anthropicがフルスタック最適化で先行している
    • 依然としてminimal reasoningがない
      Opus 4.6のようにthinkingをオフにしても高速で賢いモデルはまだない
    • Codexより安そうに見えて興味深い
    • ナレッジカットオフが2025年1月なので、やや古く感じる
  • Gemini 3はまだプレビュー段階で、2.5はまもなく廃止予定だ
    公式の廃止スケジュールを見ると、一部のモデルは代替モデルもなく終了する
    Googleが実際の本番向けモデルをいつ出すのか疑問だ

    • 私も同感だ。廃止済みまたは未リリースのモデルに依存するのは危険だ
      実運用中のシステムがあるので、大きな不安を感じている
    • リンクの読み違いでは。廃止されるのは2.5-previewだけで、2.5正式版は2026年秋まで維持される
    • Googleが多くのユーザーが依存するソフトウェアを絶対に廃止しないって?
      Killed by Googleを見れば、その言葉がどれだけむなしいかわかる
    • こういう状況こそ、「ああ、いかにもGoogleらしい」と感じる
    • 2.5廃止の告知はまだない
      3.0がプレビューなら、2.5は少なくとも1年は維持されそうだ
      公式ドキュメントにも「正確な終了日は事前告知のうえ案内する」と明記されている
  • GeminiがUIとデータ同期のレースコンディション問題を一発で解決した
    Opus 4.6でも3回試してようやく解けた問題だったので驚いた
    以前より冗長さが減り、要点にすぐ到達する
    今後はGeminiでR&D、仕上げはOpus/Sonnet 4.6という戦略を使いそうだ

    • 私の組み合わせは、Opus 4.6でコードリサーチ、GPT 5.3 codexでコード作成、Geminiで科学・数学アルゴリズム、Grokでセキュリティ関連の問い合わせ処理だ
      複数モデル対応の統合ラッパーを使うと、モデル選びで悩むことが減る
      結局大事なのは「自分の問題に最も合うモデル」だ
  • Geminiが「洗車場の質問」に完璧に答えた
    「歩いて行ったら洗う車がないので、車で行かなければならない」という論理的な回答だった

    • 学習データに含まれていた質問かもしれないので、代わりに象の洗車質問に変えてみた
      Geminiは「象を連れて行かなければならない」と論理的に説明し、細かな理由まで示した
      かなり印象的な推論能力だった
    • GPT-OSS-120bも同じ質問に正答した
      ただ、Geminiの「雨の日に洗車予報」というコメントはかわいいが、自信過剰にも感じる
    • 重要なのは、正解した事実よりも理由を適切に推論できたか
    • 実はGemini 3 ProとFlashもすでにこの質問に正答していた
    • ただ、回答があまりに冗長で、かえって疲れる
  • 「ペリカンが自転車に乗るSVG」テストでGeminiが良い結果を出した
    結果リンクを参照
    ARC-AGIベンチマーク上昇のおかげか、視覚的生成能力が向上したようだ

    • アニメーションSVGはもう基本サンプルに含まれている
      ベンチマーク自体が意味を失っており、今では好みの領域に見える
      新しい「vibe check」ベンチマークが必要だ
    • 私が受け取った結果は、ペリカンより3Dスタイルが強かった
      興味深い変化だ
    • だが、依然として私個人のSVGベンチマーク(人体の心臓断面図)は失敗する
      結局人間のデザイナーの手が必要だ
    • モデルがさらに進化すれば、SVGベースのリアルタイムUIやインタラクティブメディアの制作も可能になりそうだ
    • 一方でPostScriptのような他のベクターフォーマットはほとんど進歩していない
      おそらくGoogleがSVGに重点最適化した結果だろう
  • Simon Willisonのブログに掲載されたペリカンSVGはかなり優秀だったが、生成に5分以上かかった
    リリース初期の性能問題のように見える

    • Geminiの問題はいつも「助けすぎようとする」態度だ
      単にペリカンと自転車だけ欲しかったのに、雲・太陽・帽子まで追加する
      コーディングでも同様で、望んでいないリファクタリングやコメント追加をやめない
    • 面白いのは、こうしたテストのおかげでGoogleが実際に動物+乗り物SVG生成にかなり力を入れるようになった点だ
      Jeff Deanのツイートもそれを示唆している
    • なぜLLMがこれほどSVGに強いのか気になる
      他の空間理解は弱いのに、正確な図形生成は卓越している
    • そのうちモデル同士が「ペリカン自転車SVG生成」でベンチマーク競争を始めそうだ
    • Googleブログの公式ポストを見ると、SVG生成が主要ユースケースとして言及されている
      つまり、これは一般的な能力向上ではなく、明示的な学習の結果である可能性が高い
 
clumsily 2026-02-20

おそらく、そのうちひっそりと性能がナーフされる気がしますが、どれくらいナーフされるかが一番重要そうですね。 (ほとんどのAIモデルは時間が経つほど少しずつ賢くなくなっていく感じはありますが、Googleはとりわけひどいんですよね)
3 Proも最初に出た直後は良かったのですが、1週間くらい経ったあたりでこいつが急に賢くなくなってしまって、結局使うのをやめた記憶があります。