- Gemini 3 Proは、単なる認識段階を超えて、視覚的・空間的推論を実行する次世代のマルチモーダルモデルです
- 文書、空間、画面、映像理解などの幅広い領域で最先端のパフォーマンスを記録し、複雑な視覚推論ベンチマークで最高水準を達成
- 文書理解では正確なOCRと構造復元(derendering)、多段階の表・チャート分析など高度化された推論機能を提供
- 空間・画面・映像理解では座標ベースのポインティング、高速フレーム解析、ビデオ原因追跡など、実環境との相互作用能力を強化
- 教育、医療、法務、金融など多くの業界で精密な視覚理解と自動化を支援し、開発者はmedia_resolutionパラメータで性能とコストを調整可能
Gemini 3 Proの概要
- Gemini 3 Proは、単なる認識から視覚的・空間的推論へと進化したモデルで、Googleが開発した最も強力なマルチモーダルモデルです
- 文書、空間、画面、映像理解の全般にわたって、最新ベンチマークで最高点を記録
- MMMU Pro、Video MMMUなど、複雑な視覚推論テストで新しい最高性能を達成
1. 文書理解
- 実際の文書は画像、手書き、表、数式など非構造要素が混在しており、Gemini 3 Proはこれを正確に認識して構造化します
- Derendering機能により、視覚文書をHTML、LaTeX、Markdownなどの構造化コードとして復元可能
- 18世紀の商人台帳を表に変換したり、数式画像をLaTeXコードとして再構成したりします
- Florence Nightingaleの元図表をインタラクティブチャートとして再現
- 複合推論能力で長文レポート内の表とチャートを段階的に分析
- CharXiv Reasoningベンチマークで人間基準(80.5%)を上回り
- 米国国勢調査局レポートの例では、Gini指数の変化を数値・政策分析と結び付けて原因(ARPA政策の終了、景気刺激策終了)を正確に導出
- 最下位所得5分位の比率が上昇したことを表の比較から結論
2. 空間理解
- Gemini 3 Proは空間認識能力が最も強力なバージョンで、物理的世界を理解するために最適化されています
- ピクセル単位座標出力で画像内の特定位置を正確に指し示す
- 連続した2Dポイントを活用して人体姿勢推定や軌跡追跡を実施
- オープンボキャブラリー参照機能で物体と意図を特定
- ロボットに「このテーブルのゴミを分類しろ」という空間ベースの計画生成を行う指示が可能
- AR/XRデバイスで「ユーザーマニュアルに従ってネジを指し示せ」という視覚的指示実行をサポート
3. 画面理解
- デスクトップとモバイルOS画面を正確に認識し、コンピューター利用の自動化をサポート
- 定型作業の自動化、QAテスト、ユーザーオンボーディング、UX分析などで活用
- UI要素を認識し、クリック位置を精密に判断
4. 動画理解
- 映像は最も複雑なデータ形式であり、Gemini 3 Proはこれを高速・高精度で分析します
- 高フレームレート(>1 FPS)処理により素早い動作を認識し、ゴルフスイングなどのきめ細かな動き分析が可能
- 10 FPS処理時、体重移動とスイングの詳細な動作まで捉えることができます
- 「Thinking」モードで単純な物体認識から、原因・結果追跡型のビデオ推論へ拡張
- 長尺動画を分析して、アプリコードや構造化情報へ変換可能。動画とコードの接続を強化
5. 実際の活用分野
- 教育分野: 数学・科学における図表中心の問題解決能力を向上
- 中等教育から大学レベルのマルチモーダル推論問題を処理
- [Math Kangaroo]などの視覚的数学パズルや複雑な化学・物理ダイアグラムの分析
- [Nano Banana Pro]と組み合わせ、学生課題の誤りを視覚的に表示
- 医療・生命科学: MedXpertQA-MM、VQA-RAD、MicroVQAなどで医療画像ベンチマーク最高性能
- 放射線画像の質疑応答、顕微鏡ベースの生物学研究などで活用
- 法務・金融: 複雑なレポート・契約書内の表やチャートを分析し、専門文書処理の自動化をサポート
6. メディア解像度制御
- 視覚入力を処理する際、元アスペクト比を維持して品質を向上
- media_resolutionパラメータで性能・コストのバランスを調整可能
- High resolution: 詳細なOCR、複雑な文書理解に適しています
- Low resolution: シーン認識、長文脈処理時のコスト・レイテンシの最適化
- 詳細設定は[Gemini 3.0 Documentation Guide]で確認可能
開発者向けアクセス
- Gemini 3 ProはGoogle AI Studioで直接実験可能です。
開発者ドキュメントでAPI統合およびモデル活用をサポート
3件のコメント
全体的には良いので、ユーザーの指示に反してYouTube動画をしつこく差し込んでくるのだけは直してほしいです。回答の途中で自動再生されて集中が途切れてしまうので、personal contextで動画を禁止にしたのに、それでもたまに無視して動画を押し付けてきます。イライラする…
リストを作ってくれと頼んだら、突然 Google Drive を連携しろと言われました(笑)
Hacker Newsの意見
自分が作ったLLM画像テストで、初めて部分点を取ったモデルが出た
テスト内容は5本脚の犬の脚の本数を数えることだが、ほとんどのLLMは頑固に4本だと主張した
GPT-5は「金色の犬の足」と「明るい緑の芝生」の境界を見つけるエッジ検出スクリプトを自力で書いて4本だと証明しようとしたが、実際には5本を見つけるとバグだと主張して感度を調整した
Gemini 3は最初は脚の本数を間違えたが、写真内の「男性の解剖学的構造」を認識した。つまり、5本目の脚はその位置にあった
それでも、依然として印象的だと言えるほどではない
ちなみにMetaのimage slicerは5本の脚を正確に認識した。脚の多い犬はすべてnano-bananaで生成されたものだった
GeminiとGrokに脚の本数を数えさせたところ、どちらも4本だと言い張った
Grokは自分が間違っていると言われると存在論的混乱に陥り、最終的に「これは有名な錯視写真で、首なし犬のように見えるが実際には3本脚しかない」と結論づけた
こういうテストは、LLMが本当に『知能的』だと感じられるたびに現実へ引き戻してくれる
LLMに最適経路を描かせると全部失敗する
ここにNano Bananaの結果がある: テストリンク
モデルが人間のように考えていないこと以外、あまり何も証明していない
プロンプトがモデルに「この画像を非常に文字どおりに解釈しろ」と明示しているのか、あるいは意図的に引っかけるよう設計されているのか気になる
成功基準が単に「5」という答えを出すことなのか、それとも会話コンテキストを含むのかも不明だ
結局のところ、こうしたテストはLLMの認知レベルを評価するには非生産的な分析に見える
結果リンク
だがモデルは、自分がそう作ったとは『思っていなかった』
最後の推論段階で「5本目の脚が引き続き欠落する」として自らの限界を認め、「欠陥は認識しているが最善の画像を提供する」と結論づけた
たとえば脚が1本ないクモ、9角の星、5つ葉のクローバー、指の本数が違う人などを生成させると、成功率は25%にも満たない
とくに指の問題は、昔のSD 1.5の解剖学的エラーを直すために払われた努力を思うと皮肉だ
自分は建設用の電気図面作業をしていて、LLMに簡単な作業を投げている
雑なハーネスを与えただけなのに、ほぼ一発で部屋のコンセント配置を完成させた
制御をもう少し細かくすれば、近いうちに同僚たちの業務のかなりの部分を置き換えられそうだ
こういうツールを改善すべきなのは、ユーザーのエンジニアではなく、それを作った会社自身であるべきだ
信頼性の低いサードパーティ製アクセラレータに依存するのは危険だ
デジタルアート、プロジェクト管理、エンジニアリング、ブルーカラーの仕事にまで、だんだん領域が広がっている
昔はチューリングテストが真面目な議論の対象だったことを、誰も覚えていないようだ
OCR性能の向上がGoogle Booksに適用されるなら、とてつもないことになりそうだ
長期的には希少書籍を$5,000未満で圧縮保存できるようになるかもしれない
Anna’s Archiveのブログ記事も参考になる
archive.orgがTesseractの代わりにこれを使ってくれるといいのだが。問題はコストがどれくらいかだ
ScreenSpot Proの結果が興味深い
GUIベースの高解像度コンピュータ利用テストだ
論文リンク
最新モデルでもう一度テストしてみるつもりだ
関連ブログ
記事の執筆者へ — 「HTML transcription」リンクが壊れている
社内向けのGoogleアドレスにつながっている
Nano Banana Proは今でも単語探しパズルを完璧には解けない
一方でGemini 3 Pro with Code Executionは一発で正解し、単語の位置まで正確に示した
パズル画像, Nano Banana結果1, 結果2
Nano Bananaは2語しか当てられなかったが、以前より大きな進歩だ
大文字小文字の一致や空白除去のような細かな前処理が必要な問題だ
「Gemini 3 Proは単純認識から空間推論への世代的飛躍」だと言われたが
「なみなみ注がれたワイングラス」を頼むと、2/3しか満たされていないグラスを描いた
真の空間推論にはまだ程遠い
Nano Banana Proのほうが画像内の誤り箇所を推論する能力に優れている
今回の発表は新モデルではなく、Gemini 3の実際のビジョン活用事例を強調しただけだ
Gemini 3の座標出力機能でポーズ推定や軌跡追跡が可能だと言われているが、
具体的なプロンプトや文書がなくて残念だ
たとえばワイド、正方形、縦長、4:3比率で写真を切り抜いてくれるモデルはあるだろうか? Hugging Faceでは見つけられなかった
音声説明付きYouTubeが可能になれば本当に驚異的だと思う
自分でプレイしなくても、Geminiがシーンを描写してくれるナラティブなプレイスルーを聴けるようになるだろう
元動画, スクリプト, TTS音声
144p動画なので細部の描写には多少ズレがあったが、シーン説明自体はかなり正確だった
元動画, 結果gist
視覚障害者向けの描写としてかなり正確だった