- Googleが最も知的なAIモデル Gemini 3を発表し、強化された推論力とマルチモーダル理解能力を提供
- Gemini 3 Proは前世代比で主要ベンチマークすべてにおいて最高性能を記録し、テキスト・画像・動画・コードなど多様な入力を処理
- Deep Thinkモードは複雑な問題解決のための高度な推論機能を追加し、Ultra加入者に順次提供予定
- Gemini 3は学習・開発・計画全般を支援し、Google Search、Geminiアプリ、AI Studio、Vertex AIなどで利用可能
- GoogleはGemini 3を通じて知能型エージェントとパーソナライズされたAIの時代への移行を加速
Gemini 3 概要
- Gemini 3はGoogleが開発した最も知的なAIモデルで、ユーザーがどんなアイデアでも実現できるよう支援
- マルチモーダル理解と**エージェント型コーディング(Agentic Coding)**機能を組み合わせ、テキスト、画像、動画、音声、コードなど多様な入力を統合処理
- Gemini 3 ProはAI Studio、Vertex AI、Geminiアプリ、Google AntigravityプラットフォームなどGoogleエコシステム全体で利用可能
- Deep Thinkモードは向上した推論能力で複雑な問題解決を支援し、Google AI Ultra加入者に提供予定
CEOメッセージ
- Sundar PichaiはGeminiプロジェクト開始から2年で、AI Overviewsの月間ユーザー20億人、Geminiアプリ6億5,000万人、13万人超の開発者参加などの成果に言及
- GoogleのフルスタックAIイノベーション構造(インフラ–研究–モデル–製品)が技術の迅速な普及を可能にしていると説明
- Gemini 3は前世代のマルチモーダル・推論・エージェント機能を統合したモデルで、ユーザーの意図と文脈をより正確に把握
- Gemini 3はSearchのAI Mode、Geminiアプリ、AI Studio、Vertex AI、Google Antigravityなどで同時に提供開始
Gemini 3 Pro の性能
- Gemini 3 Proは2.5 Proと比べて主要なAIベンチマークすべてで優れた性能を記録
- LMArenaリーダーボード 1501 Elo、Humanity’s Last Exam 37.5%、GPQA Diamond 91.9%、MathArena Apex 23.4% を達成
- マルチモーダルベンチマーク MMMU-Pro 81%、Video-MMMU 87.6%、SimpleQA Verified 72.1% を記録
- 正確で簡潔な応答を提供し、科学的概念の可視化や創造的なアイデアの具体化に活用可能
- 例として、トカマク内のプラズマ流の可視化コード生成や核融合物理学をテーマにした詩の作成が可能
Gemini 3 Deep Think
- Deep ThinkモードはGemini 3の推論およびマルチモーダル理解能力をさらに強化
- Humanity’s Last Exam 41.0%、GPQA Diamond 93.8%、ARC-AGI-2 **45.1%**で最高水準の性能
- 複雑な問題解決と新たな課題に対する高度な推論能力を実証
学習(Learn anything)
- Gemini 3は100万トークンのコンテキストウィンドウとマルチモーダル推論を活用して学習を支援
- 手書きレシピの翻訳とデジタル料理本の作成
- 長い講義や論文を要約し、インタラクティブなフラッシュカードや可視化コードを生成
- スポーツ映像分析による個別最適化されたトレーニング計画の作成
- Google SearchのAI ModeはGemini 3を基盤に、没入型ビジュアルレイアウトとインタラクティブツールをリアルタイム生成
開発(Build anything)
- Gemini 3はゼロショット生成と複雑なプロンプト処理に強く、WebDev Arena 1487 Eloを達成
- Terminal-Bench 2.0 54.2%、SWE-bench Verified **76.2%**でツール利用およびコーディングエージェント性能が向上
- Google AI Studio、Vertex AI、Gemini CLI、Google Antigravityで開発可能
- Cursor、GitHub、JetBrains、Manus、Replitなどのサードパーティプラットフォームでもサポート
Google Antigravity: エージェント中心の開発環境
- Google AntigravityはGemini 3ベースのエージェント型開発プラットフォームで、開発者は作業中心レベルでAIと協業可能
- エージェントがエディタ・ターミナル・ブラウザに直接アクセスし、コード作成、実行、検証を自動で実施
- Gemini 3 ProとGemini 2.5 Computer Useモデル、Nano Banana画像編集モデルが統合されている
- 例として、フライト追跡アプリをエージェントが自ら設計・コーディング・検証するワークフローを実現
計画(Plan anything)
- Gemini 3は長期計画能力を強化し、Vending-Bench 2 リーダーボード1位を達成
- シミュレーションされた自動販売機ビジネス運営で1年間にわたり安定した意思決定を維持
- 複雑な多段階タスクの自動化が可能: メール整理、サービス予約など
- Gemini Agent機能を通じて、Ultra加入者はGeminiアプリで直接体験可能
責任ある開発
- Gemini 3はGoogle AIの中で最も安全なモデルであり、プロンプトインジェクション耐性とサイバー攻撃防御力を強化
- Frontier Safety Frameworkに基づき、社内テストと外部専門家評価を実施
- UK AISI、Apollo、Vaultis、Dreadnodeなどの機関が参加
- Gemini 3モデルカードで詳細な安全性評価結果を公開
Gemini 3時代の始まり
- Gemini 3は以下の経路で配布を開始
- GeminiアプリおよびSearchのAI Mode
- AI Studio、Google Antigravity、Gemini CLIを通じた開発者アクセス
- Vertex AIおよびGemini Enterpriseを通じた企業向け展開
- Deep Thinkモードは追加の安全性検証後、Ultra加入者に提供予定
- 今後Gemini 3シリーズの追加モデルも公開予定で、ユーザーフィードバックに基づいて拡張を進める計画
3件のコメント
ジェム神やばいw
Hacker Newsの意見
以前のXMLベースの計算機アプリをGeminiに入力したところ、1分も経たないうちに完全なWebアプリを作ってくれた
自分は長年、カスタムXMLをAndroid/Swingアプリに変換するコンパイラを自作していたが、Geminiは形式の説明すらなしにそれをやってのけた
Lovableで試したときはアプリがまともに動かず、クレジットを無駄にしただけだったが、今回はまったく別次元だった
結果リンク
最新のProject Euler問題(#970)をGeminiに与えてみた。学習データには入っていない可能性が高かったが、5分10秒考えたあと、正解を出すPythonコードを返してきた
人間の上位3人の解答時間はそれぞれ14分、20分、1時間14分だった
こういう種類の問題はモデルがRLチューニングされた領域だろうとは思っていたが、それでも数日かかりそうな問題を数分で解いたのは驚きだった
Web検索を禁止したのに、stackexchange、youtubeなど8つの「出典」を返してきた
それでも洞察の大半は正しく、かなり有用なツールではある
プロンプトリンク
ChatGPT以降、どのモデルも解けなかったが、Gemini 3がついに成功した
だがこうした結果を見ると、10年以内にパズルではStockfish級のAIが出てきそうだ
以前Flash 2.5で実験していたアナログ時計ウィジェットのプロンプトをGemini 3 Pro Previewに入れたところ、一発で完璧に動く結果が得られた
結果リンク
1日は86.4ksで、現在は約1.76ギガ秒AUNIX時点だ。いつか20フィートの実物時計を作ってみたい
改善版リンク
${time}変数を含むHTML/CSSだけを生成する形で、Geminiはそれを完全に台無しにした失敗例リンク
Pelicanベンチマークに関する自分の記録と、新しい高難度バージョンをまとめた
ブログ記事
おそらく同じベースモデルを使い、RLチューニングだけ改善した可能性がある
Gemini 3 Pro Previewは、自分の基本的なPythonベンチマークで完全に失敗した
Gemini 2.5 Proは少し近かったが、それでも不正解だった
一方でgpt-5.1-thinking、Claude Sonnet 4.5、Opus 4.1は通過した
こういうのを見ると、ベンチマークは絶対的な基準ではないと改めて感じる
GPT-5 thinkingが失敗した「基本的な」Python問題がどんなものなのか気になる
医療関連の問題を扱っていた際、Gemini 2.5 Proは半分程度しか当たらなかったが、Gemini 3.0は完璧に解決した
関連する規制、研究、承認手続きまで論理的に整理してくれて、実際に意思決定の助けになった
こういうモデルは本当に人々の生活を変えると思う
Googleの発表記事に**「AIが生成した要約を読む」**ボタンがあるのがあまりにも面白かった
次の段階は「私たちのAIにあなたのAI要約を読ませましょう」になりそうだ
結局、Douglas AdamsのElectric Monkのように、信じることすら自動化されるのかもしれない
自分が気に入っているベンチマークは、長い会議の音声ファイルの要約と話者分離だ
Gemini 2.5は要約は悪くなかったが話者分離がめちゃくちゃで、3.0は完璧に当てた
長い音声ではまだ限界がある
自分が作った脚が5本ある犬の写真テストではGemini 3も失敗した
それでも他のモデルと違って5本目の脚は認識したが、それを別の身体部位と勘違いしていた
視覚的認識は依然として大きな課題だ
現在、GoogleがリリースしたVSCode OSSフォークのAntigravity ( https://antigravity.google/pricing ) で無料で利用できます。
このほか、gemini-cliでは現在AI Ultra(月36万ウォン)のみ利用可能のようです。