9 ポイント 投稿者 GN⁺ 2025-03-26 | 3件のコメント | WhatsAppで共有
  • Gemini 2.5は、複雑な問題解決のために設計された、最も高性能な推論ベースのAIモデル
  • 初回リリースのGemini 2.5 Pro Experimentalは、さまざまなAIベンチマークで最高性能を記録
  • 特にLMArenaランキングでは大差で1位を獲得
  • 従来モデルとは異なり、応答前に自ら思考プロセスを経る構造で設計されており、正確性と性能が向上

AIにおける「思考」能力とは?

  • 単純な分類や予測を超えて、情報分析論理的な結論導出文脈理解意思決定などの高次認知能力を含む
  • このためにDeepMindは、強化学習Chain-of-Thoughtプロンプト手法などを活用してAIの推論能力を研究してきた
  • 従来のGemini 2.0 Flash Thinkingモデルからさらに一段進化した性能を示す

今後の方向性

  • Gemini 2.5により、向上した基盤モデルと後処理手法を組み合わせて新たな性能水準を達成
  • 今後はすべてのGeminiモデルにこの思考能力を標準搭載し、より複雑な問題解決と高度なエージェント支援を可能にする予定

Gemini 2.5 Proの紹介

  • Gemini 2.5 Pro Experimentalは、これまでに開発されたモデルの中でも最も複雑なタスクの実行に優れた性能を示す
  • 人間の選好を基準に評価するLMArenaで大差の1位を獲得
  • コーディング、数学、科学のベンチマークでも優れた性能を示す
  • 現在、Google AI StudioおよびGeminiアプリで利用可能で、まもなくVertex AIでも提供予定
  • 今後は料金プランが導入され、より高い呼び出し上限へ拡張可能なサービスになる予定

向上した推論性能

  • 複雑な論理問題の解決で最高水準のベンチマーク成績を記録
  • 追加コストのかかるテスト手法(例:多数決投票)なしでも優れた性能を維持
  • GPQA、AIME 2025などの数学・科学問題で先進的な性能を発揮
  • 数百人の専門家が設計した高難度推論テスト「Humanity’s Last Exam」で、ツールなしに18.8%という業界最高スコアを記録

高度なコーディング性能

  • コーディング性能はGemini 2.0と比べて大幅に向上
  • Webアプリ生成エージェント型コード作成コード変換および修正に優れた能力
  • SWE-Bench Verified評価で、カスタムエージェント使用時に63.8%を達成
  • わずか1行のプロンプトで実行可能なビデオゲームを生成する例もある

Geminiモデルの強みを継承

  • Gemini 2.5は、既存Geminiモデルの強みであるマルチモーダル処理長いコンテキストウィンドウをそのまま維持
  • 100万トークンのコンテキストウィンドウをサポート(まもなく200万に拡張予定)
  • テキスト、音声、画像、動画、コードベース全体など多様な情報ソースを総合的に処理可能
  • 開発者および企業ユーザーは、Google AI Studio、Gemini Advanced、Vertex AIなどを通じて実験およびテスト可能

3件のコメント

 
wowfoot 2025-03-26

ClaudeやGPT-4.5を圧倒しているが、Grok 3を何度も試したときの強さには勝てないね。
Grok 3はすごい。

 
zxshinxz 2025-03-26

Google AI Studio に Gemini 2.5 Pro が登場したことで、これまであった Gemini 2.0 Pro はすべて消えてしまいましたね。無料でそこそこ便利に使えていたので、少し残念です。Gemini 2.5 Pro は 1 分あたり 2 回まで、1 日 50 回までしか呼び出せないという制約があり、かなり大きいように感じます。

 
GN⁺ 2025-03-26
Hacker Newsの意見
  • LLMを使って小説のような長文を書くときの最大の問題の1つは、詳細を与えるとモデルが過剰に敏感に反応してしまうこと

    • たとえば、叙事ファンタジーの恋愛対象のプロフィールを与えると、主人公がほぼ必ず3ページ以内にその相手と出会ってしまう
    • これは不自然な展開であり、これを変えようとする試みも効果がない
    • このモデルは19ページ生成した後でも自然な展開を見せ、多くの詳細を含んでいる
    • 非常に印象的
  • 数学パズルを使ってさまざまなモデルのベンチマークをしてきた

    • このパズルはコンピューターで解くのに約3日かかり、数学専攻の人は手作業で1日で解いた
    • Gemini 2.5はこのパズルを初めて解いたモデルであり、これはLLMが数学的推論において人口の95%以上より優れていることを意味する
    • パズルは、3人が円形に立っていて、それぞれの頭上に正の整数が浮かんでおり、2つの数の和が3つ目の数に等しいというもの
    • 1人目は自分の数が分からないと言い、2人目も分からないと言い、3人目も分からないと言う
    • もう一度1人目に尋ねると、彼は65と答える
    • 3つの数の積は何かを問うパズル
  • 音声文字起こしや、複雑な写真の中で生物の周囲に境界ボックスを描く作業で非常に優れた性能を示した

    • 自転車に乗るペリカンも描いてくれた
    • 関連ノートはリンクで確認できる
  • ベンチマークで前例のない形で最高成績を記録した

    • 高品質で明確な結果を示すが、やや遅い
    • Googleが再び大きな成果を出している
  • Gemini 2.5 Proはaider polyglot leaderboardで73%のスコアを記録し、SOTAを達成した

    • 以前のGeminiモデルから大きな飛躍を見せている
    • 効率的なdiff-like編集形式を効果的に使った最初のGeminiモデル
  • こうした発表はテンプレートのように見え始めている

    • 最先端モデル
    • X、Y、Zとのベンチマーク比較
    • 「より優れた」推論
    • 素晴らしいモデルかもしれないが、繰り返される文言は興味を削ぐ
  • Gemini 2.5は大幅に向上したベースモデルと改善された後処理を組み合わせ、新たな性能水準に到達した

    • 今後はこうした思考能力をすべてのモデルに直接組み込み、より複雑な問題に対処し、より有能で状況認識のできるエージェントを支援する予定
    • インターネットに接続されており、必要なときには推論モデルとして動作する
    • 最近リリースされたCanvasモードをこのモデルでもサポートしてほしい
  • Dartライブラリのバグ原因を特定するため、LLMにコードベース全体とバグ説明を与えるテストケースを使った

    • 約360,000トークンを含む
    • 1か月前に主要モデルで試したが、このモデルだけが正しい修正を特定した
  • Geminiを使う予定なら、次のような注意点がある

    • 機密情報や、レビュアーが見たりGoogleが利用できるデータを入力しないこと
    • Google AIの品質向上と製品改善のため、人間のレビュアーが会話を読み、注釈を付け、処理する
    • この過程ではプライバシー保護のため、会話はGoogleアカウントから切り離される
  • 2.0モデルはまだ古くないのに、なぜ名前に+0.5が付いているのか気になる

    • マーケティング上の理由なのか、新しいモデル構造を示すものなのか、2.0ベースで学習データを増やしたものなのか、新しいサービスインフラなのか気になる
    • *.5という命名法が最初に現れたとき、やや馬鹿げていると感じた
    • OpenAIが3.5を出したとき、すでに4を準備中で、ChatGPTにより適するよう3を調整していると言っていた
    • AnthropicがSonnet 3、3.5、3.5 (new)、3.7とモデルを命名したのは、この命名法の最悪の例だと思う
    • semver、日付ベース("Gemini Pro 2025")、意味のある文字と数字の組み合わせ(例: 4o - "Omni")の方が好ましい