19 ポイント 投稿者 GN⁺ 2025-11-19 | 3件のコメント | WhatsAppで共有
  • Googleが最も知的なAIモデル Gemini 3を発表し、強化された推論力とマルチモーダル理解能力を提供
  • Gemini 3 Proは前世代比で主要ベンチマークすべてにおいて最高性能を記録し、テキスト・画像・動画・コードなど多様な入力を処理
  • Deep Thinkモードは複雑な問題解決のための高度な推論機能を追加し、Ultra加入者に順次提供予定
  • Gemini 3は学習・開発・計画全般を支援し、Google Search、Geminiアプリ、AI Studio、Vertex AIなどで利用可能
  • GoogleはGemini 3を通じて知能型エージェントとパーソナライズされたAIの時代への移行を加速

Gemini 3 概要

  • Gemini 3はGoogleが開発した最も知的なAIモデルで、ユーザーがどんなアイデアでも実現できるよう支援
  • マルチモーダル理解と**エージェント型コーディング(Agentic Coding)**機能を組み合わせ、テキスト、画像、動画、音声、コードなど多様な入力を統合処理
  • Gemini 3 ProはAI Studio、Vertex AI、Geminiアプリ、Google AntigravityプラットフォームなどGoogleエコシステム全体で利用可能
  • Deep Thinkモードは向上した推論能力で複雑な問題解決を支援し、Google AI Ultra加入者に提供予定

CEOメッセージ

  • Sundar PichaiはGeminiプロジェクト開始から2年で、AI Overviewsの月間ユーザー20億人Geminiアプリ6億5,000万人13万人超の開発者参加などの成果に言及
  • GoogleのフルスタックAIイノベーション構造(インフラ–研究–モデル–製品)が技術の迅速な普及を可能にしていると説明
  • Gemini 3は前世代のマルチモーダル・推論・エージェント機能を統合したモデルで、ユーザーの意図と文脈をより正確に把握
  • Gemini 3はSearchのAI ModeGeminiアプリAI StudioVertex AIGoogle Antigravityなどで同時に提供開始

Gemini 3 Pro の性能

  • Gemini 3 Proは2.5 Proと比べて主要なAIベンチマークすべてで優れた性能を記録
    • LMArenaリーダーボード 1501 Elo、Humanity’s Last Exam 37.5%、GPQA Diamond 91.9%、MathArena Apex 23.4% を達成
    • マルチモーダルベンチマーク MMMU-Pro 81%、Video-MMMU 87.6%、SimpleQA Verified 72.1% を記録
  • 正確で簡潔な応答を提供し、科学的概念の可視化や創造的なアイデアの具体化に活用可能
  • 例として、トカマク内のプラズマ流の可視化コード生成核融合物理学をテーマにした詩の作成が可能

Gemini 3 Deep Think

  • Deep ThinkモードはGemini 3の推論およびマルチモーダル理解能力をさらに強化
    • Humanity’s Last Exam 41.0%、GPQA Diamond 93.8%、ARC-AGI-2 **45.1%**で最高水準の性能
  • 複雑な問題解決と新たな課題に対する高度な推論能力を実証

学習(Learn anything)

  • Gemini 3は100万トークンのコンテキストウィンドウマルチモーダル推論を活用して学習を支援
    • 手書きレシピの翻訳とデジタル料理本の作成
    • 長い講義や論文を要約し、インタラクティブなフラッシュカードや可視化コードを生成
    • スポーツ映像分析による個別最適化されたトレーニング計画の作成
  • Google SearchのAI ModeはGemini 3を基盤に、没入型ビジュアルレイアウトとインタラクティブツールをリアルタイム生成

開発(Build anything)

  • Gemini 3はゼロショット生成複雑なプロンプト処理に強く、WebDev Arena 1487 Eloを達成
    • Terminal-Bench 2.0 54.2%、SWE-bench Verified **76.2%**でツール利用およびコーディングエージェント性能が向上
  • Google AI Studio、Vertex AI、Gemini CLI、Google Antigravityで開発可能
  • Cursor、GitHub、JetBrains、Manus、Replitなどのサードパーティプラットフォームでもサポート

Google Antigravity: エージェント中心の開発環境

  • Google AntigravityはGemini 3ベースのエージェント型開発プラットフォームで、開発者は作業中心レベルでAIと協業可能
  • エージェントがエディタ・ターミナル・ブラウザに直接アクセスし、コード作成、実行、検証を自動で実施
  • Gemini 3 ProとGemini 2.5 Computer UseモデルNano Banana画像編集モデルが統合されている
  • 例として、フライト追跡アプリをエージェントが自ら設計・コーディング・検証するワークフローを実現

計画(Plan anything)

  • Gemini 3は長期計画能力を強化し、Vending-Bench 2 リーダーボード1位を達成
    • シミュレーションされた自動販売機ビジネス運営で1年間にわたり安定した意思決定を維持
  • 複雑な多段階タスクの自動化が可能: メール整理、サービス予約など
  • Gemini Agent機能を通じて、Ultra加入者はGeminiアプリで直接体験可能

責任ある開発

  • Gemini 3はGoogle AIの中で最も安全なモデルであり、プロンプトインジェクション耐性サイバー攻撃防御力を強化
  • Frontier Safety Frameworkに基づき、社内テストと外部専門家評価を実施
    • UK AISIApolloVaultisDreadnodeなどの機関が参加
  • Gemini 3モデルカードで詳細な安全性評価結果を公開

Gemini 3時代の始まり

  • Gemini 3は以下の経路で配布を開始
    • GeminiアプリおよびSearchのAI Mode
    • AI Studio、Google Antigravity、Gemini CLIを通じた開発者アクセス
    • Vertex AIおよびGemini Enterpriseを通じた企業向け展開
  • Deep Thinkモードは追加の安全性検証後、Ultra加入者に提供予定
  • 今後Gemini 3シリーズの追加モデルも公開予定で、ユーザーフィードバックに基づいて拡張を進める計画

3件のコメント

 
t7vonn 2025-11-19

ジェム神やばいw

 
GN⁺ 2025-11-19
Hacker Newsの意見
  • 以前のXMLベースの計算機アプリをGeminiに入力したところ、1分も経たないうちに完全なWebアプリを作ってくれた
    自分は長年、カスタムXMLをAndroid/Swingアプリに変換するコンパイラを自作していたが、Geminiは形式の説明すらなしにそれをやってのけた
    Lovableで試したときはアプリがまともに動かず、クレジットを無駄にしただけだったが、今回はまったく別次元だった
    結果リンク

  • 最新のProject Euler問題(#970)をGeminiに与えてみた。学習データには入っていない可能性が高かったが、5分10秒考えたあと、正解を出すPythonコードを返してきた
    人間の上位3人の解答時間はそれぞれ14分、20分、1時間14分だった
    こういう種類の問題はモデルがRLチューニングされた領域だろうとは思っていたが、それでも数日かかりそうな問題を数分で解いたのは驚きだった

    • 自分もGemini 3 Pro Previewで同じ問題を解かせようとしたが、4分31秒で結果を出したものの不正解だった
      Web検索を禁止したのに、stackexchange、youtubeなど8つの「出典」を返してきた
      それでも洞察の大半は正しく、かなり有用なツールではある
      プロンプトリンク
    • 以前から試していたKattisのlow問題を再度試したところ、初めてLLMが通過した
      ChatGPT以降、どのモデルも解けなかったが、Gemini 3がついに成功した
    • モデルの高いEloスコアは、単に速度のおかげかもしれない
      だがこうした結果を見ると、10年以内にパズルではStockfish級のAIが出てきそうだ
    • ちなみに現在の最新問題はProject Euler #970
    • gpt-5.1 thinkingで試したところ、単にインターネットで答えを検索してしまった 😅
  • 以前Flash 2.5で実験していたアナログ時計ウィジェットのプロンプトをGemini 3 Pro Previewに入れたところ、一発で完璧に動く結果が得られた
    結果リンク

    • Flash 2.5もそれなりに良かった。メトリックUNIX時計を作ってくれて、秒単位を**キロ秒(kiloseconds)**で表していた
      1日は86.4ksで、現在は約1.76ギガ秒AUNIX時点だ。いつか20フィートの実物時計を作ってみたい
    • 秒針が12に触れたときの**「wiggle」アニメーション**が出ないので物足りない 😂
    • このプロジェクトはWes Bosの30 Days of JavaScript講座に含まれる例題なので、学習データに入っていた可能性が高い
    • 自分はここにいくつか改善を加えたが、チクタク音だけは2回目の試行でようやく成功した
      改善版リンク
    • 別の人が書いたプロンプトはずっと単純だった。自分が元々使っていたものは${time}変数を含むHTML/CSSだけを生成する形で、Geminiはそれを完全に台無しにした
      失敗例リンク
  • Pelicanベンチマークに関する自分の記録と、新しい高難度バージョンをまとめた
    ブログ記事

    • もう各研究所に**「ペリカン担当者」**がいる気がする。SVGの自転車に乗るペリカンをもっと上手く描くために昼夜を問わず訓練しているのだろう
    • 数か月にわたってペリカンを訓練してきたのに、自分がベンチマークを変えた瞬間に目標が変わったようなものだ 😂
    • 「自転車に乗るペリカン」は、すでに学習データに含まれていた可能性が高い
    • 飽和の問題はないと言われていたが、結果を見ると主要研究所が密かにペリカンの丘を登っていたように思える
    • Gemini 3の知識カットオフが2025年1月で2.5と同じなのは残念だ
      おそらく同じベースモデルを使い、RLチューニングだけ改善した可能性がある
  • Gemini 3 Pro Previewは、自分の基本的なPythonベンチマークで完全に失敗した
    Gemini 2.5 Proは少し近かったが、それでも不正解だった
    一方でgpt-5.1-thinking、Claude Sonnet 4.5、Opus 4.1は通過した
    こういうのを見ると、ベンチマークは絶対的な基準ではないと改めて感じる

    • 「ベンチマークが無意味だ」というのは言い過ぎだ。制約はあるが、依然として有用な指標ではある
      GPT-5 thinkingが失敗した「基本的な」Python問題がどんなものなのか気になる
    • 個人ベンチマーク1つで結論を出すのは信頼しにくい。共有してもらえれば皆で検証できそうだ
    • 自分はよく「HTML1ページにPac-Manゲームを作る」というテストをする。Gemini 3も2.5と似たような失敗をした
    • ベンチマークの意味は設計の質に左右される。単に公開されているかどうかだけでは判断できない
    • Googleが発表したSWEBenchスコアではGemini 3 ProはClaude Sonnet 4.5より低かった。Opus 4.5の方がうまいのかも気になる
  • 医療関連の問題を扱っていた際、Gemini 2.5 Proは半分程度しか当たらなかったが、Gemini 3.0は完璧に解決した
    関連する規制、研究、承認手続きまで論理的に整理してくれて、実際に意思決定の助けになった
    こういうモデルは本当に人々の生活を変えると思う

  • Googleの発表記事に**「AIが生成した要約を読む」**ボタンがあるのがあまりにも面白かった
    次の段階は「私たちのAIにあなたのAI要約を読ませましょう」になりそうだ
    結局、Douglas AdamsのElectric Monkのように、信じることすら自動化されるのかもしれない

    • 自分も会社でAIプロジェクト名をElectric Monkにしようとしたが、あまりに物議を醸しそうでElectric Mentorに変えた
    • 関連してSMBC漫画が実にぴったりだ
    • そろそろAIがクラウド障害の解決まで自動化してくれるといいのだが
    • 開発者だけでなく、マネージャーの役割までAIが代替する日も近そうだ
  • 自分が気に入っているベンチマークは、長い会議の音声ファイルの要約と話者分離
    Gemini 2.5は要約は悪くなかったが話者分離がめちゃくちゃで、3.0は完璧に当てた

    • 自分は90分のポッドキャストで実験したが、Gemini 3は幻覚の引用を作り、タイムスタンプもすべて間違っていた
      長い音声ではまだ限界がある
    • ElevenLabsSonioxのような専用音声モデルを使えば、はるかに正確だ
    • どんなプロンプトを使っているのか気になる
    • 自分もポッドキャスト話者分離プロジェクトを作っているが、かなりうまく動いている
    • Parakeet TDT v3はこうした作業にとても向いていそうだ
  • 自分が作った脚が5本ある犬の写真テストではGemini 3も失敗した
    それでも他のモデルと違って5本目の脚は認識したが、それを別の身体部位と勘違いしていた
    視覚的認識は依然として大きな課題だ

    • 知覚(perception) は進化が数十億年かけて磨いてきた領域なので、計算上ははるかに難しい問題だ
    • おそらく安全フィルターの盲点のせいで、そうした誤認が起きた可能性もある
 
nullptr 2025-11-19

現在、GoogleがリリースしたVSCode OSSフォークのAntigravity ( https://antigravity.google/pricing ) で無料で利用できます。
このほか、gemini-cliでは現在AI Ultra(月36万ウォン)のみ利用可能のようです。