- 複雑なタスクを処理するための高度なマルチモーダルAIモデルで、単純な回答を超えた問題解決を目指す
- ARC-AGI-2ベンチマークで77.1%の検証スコアを記録し、従来の3 Pro比で2倍以上の推論性能を達成
- データ統合、視覚的説明、創造的コーディングなどの高難度タスクで向上した推論力を発揮
- テキスト、音声、画像、動画、コードリポジトリなど多様な入力形式を処理し、最大100万トークンのコンテキストと64Kトークン出力をサポート
- Googleは今回のプレビューを通じてエージェント型ワークフローの高度化と今後の一般公開に向けた検証を進めている
Gemini 3.1 Pro 概要
- Gemini 3.1 Proは複雑なタスクを処理するための高度なマルチモーダルAIモデルで、単純な回答を超えた問題解決を目指す
- GoogleはこれをGemini 3 Deep Thinkの成果を可能にした中核的な知能アップグレードとして位置づけている
- テキスト、音声、画像、動画、コードリポジトリなどマルチモーダル入力を処理
- 最大100万トークンのコンテキストウィンドウと64Kトークン出力をサポート
- 今回のバージョンはコンシューマー向け、開発者向け、企業向け製品全般に順次展開中
- 展開経路は次のとおり
性能とベンチマーク
- Gemini 3.1 Proは**推論能力(reasoning)**を中心とした改善により、複雑な問題解決に最適化されている
- ARC-AGI-2ベンチマークで77.1%の検証スコアを記録し、従来の3 Pro比で2倍以上の性能向上
- 主な性能比較結果(Gemini 3 Pro比):
- ARC-AGI-2: 77.1% (vs 31.1%)
- GPQA Diamond: 94.3% (vs 91.9%)
- Terminal-Bench 2.0: 68.5% (vs 56.9%)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85.9% (vs 59.2%)
- これらのベンチマークは、まったく新しい論理パターンを解くモデルの能力を評価する
- Googleはこれを「より賢く有能な基盤モデル」と位置づけ、複雑な問題解決の土台として提示している
実際の活用事例
- Gemini 3.1 Proは高度な推論を実用的な形で適用し、多様な応用可能性を示している
- 視覚的説明の生成: 複雑なテーマを明確かつ視覚的に説明する機能
- データ統合: 複数のデータを1つの統合ビューに合成
- 創造的プロジェクトの実装: 芸術的・デザイン的なアイデアをコードで実装
- 具体例
- コードベースのアニメーション: テキストプロンプトでWebサイト向けのSVGアニメーションを生成し、解像度劣化なしでファイルサイズを最小化
- 複雑なシステム統合: **国際宇宙ステーション(ISS)**の軌道をリアルタイムで可視化するダッシュボードを構築
- インタラクティブデザイン: 3Dムクドリの群れシミュレーションをコーディングし、ハンドトラッキングと音楽反応型インターフェースを実装
- 創造的コーディング: **『嵐が丘』**の文学的な雰囲気を反映したモダンなポートフォリオWebサイトを設計
展開とアクセス
- Gemini 3.1 Proは**プレビュー(preview)**形式で公開され、ユーザーフィードバックを収集中
- Google AI ProおよびUltraプランのユーザーはGeminiアプリでより高い使用上限を利用可能
- NotebookLMではProおよびUltraユーザーに独占提供
- 開発者と企業はAI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI、Android Studioを通じて利用可能
今後の計画
- GoogleはGemini 3 Proのリリース後も速い改善ペースを維持しており、今回の3.1 Proプレビューを通じてアップデートの検証とエージェント型ワークフローの拡張を進めている
- 一般公開(GA)は検証完了後に行われる予定で、Googleは「ユーザーがこのモデルで何を作り、何を発見するのか楽しみにしている」と述べている
4件のコメント
早くコーディング性能でClaude Opusに追いついてほしいですね。
そうですね。3.0 previewモデルがCLIに上がってきて使った初日はすごく良くて、ブログに感想も書いたりしたんですが、、急激に……おかげで今はcodex、claude codeを中心に使っています。とはいえclaudeもちょっと……4.6 opusやsonnetが良さそうか見て、そうでなければコードはcodex、それ以外の各種業務用としてgeminiで固めようかと思っています..
Hacker Newsの反応
Gemini 3.1 Proには本当に期待している
これまではほとんど常にClaude寄りだったが、Claude Opusは特にコーディングで優れている
Geminiもほぼ素晴らしいが、まだClaudeの水準には達していない
毎月ChatGPT Plus ↔ Gemini Pro ↔ Claudeを交互に契約して、各モデルの長所を取りこぼさないようにしている
元Google社員として、Gemini 3.1 Proが3.0より良くなることを願っている
ただ、開発用途ではGeminiが最ももどかしいモデルだった
Claude OpusはVS Code Copilotで思考の流れと応答のバランスが取れているのに、Geminiはthinking tokenばかり使って結果を説明しない
しばしばループに陥り、ツールの使い方も拙く、ファイルを見当違いに修正する
そのため「計画はGemini、実行はClaude」という戦略を使っていたが、結局Claudeだけ使うようになった
Anthropicが実プロジェクト中心にモデルを磨き込む一方で、Googleは実使用でのテストが不足しているように見える
int8をfloatと取り違えたり、正規化の有無を忘れたりする
まるで記憶力の弱い人のように感じる
それでもアーキテクチャ設計の議論にはかなり役立つ
非効率の極みだった
Claudeは「コーディングの過程」そのものを学習したような印象で、Anthropicはユーザーフィードバックをチューニングに反映しているように見える
Googleは汎用モデルを目指しているぶん、「何でも少しずつできるが、何一つ完璧ではない」状態に見える
ClaudeやCodexは問題への取り組み方を説明するが、Geminiはいきなり実行してしまう
修正依頼を無視し、ワークスペースを汚染する
無料で使えるにもかかわらず、ほとんど使わない
Anthropicは早い段階で「ユーザーが制御できなければならない」と気付いていたようだ
OpenAIはClaude並みに追いついてきたが、Googleはまだ遠い
人々はGoogleのコスト効率を過小評価している
Opusの半額なのに、性能はかなり良い
Artificial Analysisの指標によると、3.1はOpusより40%安く、30%速い
開発用途なら月300ドルでも最高のモデルを使う価値がある
消費者向けAIではこの計算は変わってくるだろう
それでも性能が追いつくなら、価格競争力は魅力的だ
だが性能が近いなら、50%のコスト削減は大きな利点だ
個人的には仕事でも趣味のコーディングでもうまく機能している
それなのにコミュニティでは酷評が多く、不思議に思う
最近のモデルは強力すぎる
以前よりはるかに短時間で完全なソフトウェアを作れる
しかしバージョン間の挙動差が大きすぎて、毎月新しいチームを管理している気分だ
モデルが予告なく差し替えられたり微妙に変わったりすることもあり、不安定な土台のように感じる
sqlite-chronicleのissueで確認できる
その後、複数のプロジェクトで詰まっていた箇所も解消した
それでもアイデア出しやコードベースの立ち上げには十分使える
同じコードでも、それを作ったモデル自身のほうが再び扱いやすいという自己一貫性があるようだ
それでもなお驚異的な技術ではある
Gemini 3.1 Proの価格は据え置き
入力$2/M、出力$12/Mで、公式ドキュメントに明記されている
ナレッジカットオフは2025年1月で、新たに「medium thinking」モードが追加された
Opus 4.6の$5/$25と比べると価格差は大きい
IAMルール設定、課金、製品名の把握などでつまずく
OpenAIやAnthropicははるかに簡単だ
それでも月額料金は似たようなものだ
Anthropicがフルスタック最適化で先行している
Opus 4.6のようにthinkingをオフにしても高速で賢いモデルはまだない
Gemini 3はまだプレビュー段階で、2.5はまもなく廃止予定だ
公式の廃止スケジュールを見ると、一部のモデルは代替モデルもなく終了する
Googleが実際の本番向けモデルをいつ出すのか疑問だ
実運用中のシステムがあるので、大きな不安を感じている
Killed by Googleを見れば、その言葉がどれだけむなしいかわかる
3.0がプレビューなら、2.5は少なくとも1年は維持されそうだ
公式ドキュメントにも「正確な終了日は事前告知のうえ案内する」と明記されている
GeminiがUIとデータ同期のレースコンディション問題を一発で解決した
Opus 4.6でも3回試してようやく解けた問題だったので驚いた
以前より冗長さが減り、要点にすぐ到達する
今後はGeminiでR&D、仕上げはOpus/Sonnet 4.6という戦略を使いそうだ
複数モデル対応の統合ラッパーを使うと、モデル選びで悩むことが減る
結局大事なのは「自分の問題に最も合うモデル」だ
Geminiが「洗車場の質問」に完璧に答えた
「歩いて行ったら洗う車がないので、車で行かなければならない」という論理的な回答だった
Geminiは「象を連れて行かなければならない」と論理的に説明し、細かな理由まで示した
かなり印象的な推論能力だった
ただ、Geminiの「雨の日に洗車予報」というコメントはかわいいが、自信過剰にも感じる
「ペリカンが自転車に乗るSVG」テストでGeminiが良い結果を出した
結果リンクを参照
ARC-AGIベンチマーク上昇のおかげか、視覚的生成能力が向上したようだ
ベンチマーク自体が意味を失っており、今では好みの領域に見える
新しい「vibe check」ベンチマークが必要だ
興味深い変化だ
結局人間のデザイナーの手が必要だ
おそらくGoogleがSVGに重点最適化した結果だろう
Simon Willisonのブログに掲載されたペリカンSVGはかなり優秀だったが、生成に5分以上かかった
リリース初期の性能問題のように見える
単にペリカンと自転車だけ欲しかったのに、雲・太陽・帽子まで追加する
コーディングでも同様で、望んでいないリファクタリングやコメント追加をやめない
Jeff Deanのツイートもそれを示唆している
他の空間理解は弱いのに、正確な図形生成は卓越している
つまり、これは一般的な能力向上ではなく、明示的な学習の結果である可能性が高い
おそらく、そのうちひっそりと性能がナーフされる気がしますが、どれくらいナーフされるかが一番重要そうですね。 (ほとんどのAIモデルは時間が経つほど少しずつ賢くなくなっていく感じはありますが、Googleはとりわけひどいんですよね)
3 Proも最初に出た直後は良かったのですが、1週間くらい経ったあたりでこいつが急に賢くなくなってしまって、結局使うのをやめた記憶があります。