- Gemini 2.5は、複雑な問題解決のために設計された、最も高性能な推論ベースのAIモデル
- 初回リリースのGemini 2.5 Pro Experimentalは、さまざまなAIベンチマークで最高性能を記録
- 特にLMArenaランキングでは大差で1位を獲得
- 従来モデルとは異なり、応答前に自ら思考プロセスを経る構造で設計されており、正確性と性能が向上
AIにおける「思考」能力とは?
- 単純な分類や予測を超えて、情報分析、論理的な結論導出、文脈理解、意思決定などの高次認知能力を含む
- このためにDeepMindは、強化学習、Chain-of-Thoughtプロンプト手法などを活用してAIの推論能力を研究してきた
- 従来のGemini 2.0 Flash Thinkingモデルからさらに一段進化した性能を示す
今後の方向性
- Gemini 2.5により、向上した基盤モデルと後処理手法を組み合わせて新たな性能水準を達成
- 今後はすべてのGeminiモデルにこの思考能力を標準搭載し、より複雑な問題解決と高度なエージェント支援を可能にする予定
Gemini 2.5 Proの紹介
- Gemini 2.5 Pro Experimentalは、これまでに開発されたモデルの中でも最も複雑なタスクの実行に優れた性能を示す
- 人間の選好を基準に評価するLMArenaで大差の1位を獲得
- コーディング、数学、科学のベンチマークでも優れた性能を示す
- 現在、Google AI StudioおよびGeminiアプリで利用可能で、まもなくVertex AIでも提供予定
- 今後は料金プランが導入され、より高い呼び出し上限へ拡張可能なサービスになる予定
向上した推論性能
- 複雑な論理問題の解決で最高水準のベンチマーク成績を記録
- 追加コストのかかるテスト手法(例:多数決投票)なしでも優れた性能を維持
- GPQA、AIME 2025などの数学・科学問題で先進的な性能を発揮
- 数百人の専門家が設計した高難度推論テスト「Humanity’s Last Exam」で、ツールなしに18.8%という業界最高スコアを記録
高度なコーディング性能
- コーディング性能はGemini 2.0と比べて大幅に向上
- Webアプリ生成、エージェント型コード作成、コード変換および修正に優れた能力
- SWE-Bench Verified評価で、カスタムエージェント使用時に63.8%を達成
- わずか1行のプロンプトで実行可能なビデオゲームを生成する例もある
Geminiモデルの強みを継承
- Gemini 2.5は、既存Geminiモデルの強みであるマルチモーダル処理と長いコンテキストウィンドウをそのまま維持
- 100万トークンのコンテキストウィンドウをサポート(まもなく200万に拡張予定)
- テキスト、音声、画像、動画、コードベース全体など多様な情報ソースを総合的に処理可能
- 開発者および企業ユーザーは、Google AI Studio、Gemini Advanced、Vertex AIなどを通じて実験およびテスト可能
3件のコメント
ClaudeやGPT-4.5を圧倒しているが、Grok 3を何度も試したときの強さには勝てないね。
Grok 3はすごい。
Google AI Studio に Gemini 2.5 Pro が登場したことで、これまであった Gemini 2.0 Pro はすべて消えてしまいましたね。無料でそこそこ便利に使えていたので、少し残念です。Gemini 2.5 Pro は 1 分あたり 2 回まで、1 日 50 回までしか呼び出せないという制約があり、かなり大きいように感じます。
Hacker Newsの意見
LLMを使って小説のような長文を書くときの最大の問題の1つは、詳細を与えるとモデルが過剰に敏感に反応してしまうこと
数学パズルを使ってさまざまなモデルのベンチマークをしてきた
音声文字起こしや、複雑な写真の中で生物の周囲に境界ボックスを描く作業で非常に優れた性能を示した
ベンチマークで前例のない形で最高成績を記録した
Gemini 2.5 Proはaider polyglot leaderboardで73%のスコアを記録し、SOTAを達成した
こうした発表はテンプレートのように見え始めている
Gemini 2.5は大幅に向上したベースモデルと改善された後処理を組み合わせ、新たな性能水準に到達した
Dartライブラリのバグ原因を特定するため、LLMにコードベース全体とバグ説明を与えるテストケースを使った
Geminiを使う予定なら、次のような注意点がある
2.0モデルはまだ古くないのに、なぜ名前に+0.5が付いているのか気になる