1 ポイント 投稿者 GN⁺ 2025-06-07 | 1件のコメント | WhatsAppで共有
  • 正式リリース前に、最新の Gemini 2.5 Pro のプレビュー版が利用可能に
  • LMArena、WebDevArena など主要評価で既存モデル比 24〜35 Eloポイント向上
  • コーディング、科学、数学、マルチモーダル理解、長文コンテキスト処理など主要ベンチマークで最高水準の性能 を記録
  • 入力価格 $1.25、出力価格 $10(100万トークンあたり) で、競合他社と比べて安価なコスト構造

主要ベンチマーク別比較

  • Reasoning & Knowledge (Humanity's Last Exam): 21.6%で OpenAI / Anthropic などと同水準、DeepSeek R1(14%)より優秀
  • Science (GPQA diamond): 86.4%で業界最高性能(単一試行基準)
  • Mathematics (AIME 2025): 88.0%で OpenAI o3、DeepSeek R1 と同程度、Anthropic Claude 4 / 3 より高い
  • Code Generation/Editing: LiveCodeBench 69.0%、Aider Polyglot 82.2%でコード生成・修正ともに高い精度
  • Agentic Coding (SWE-bench Verified): 59.6%(単一)、67.2%(複数試行)で Anthropic Claude 4 よりやや低いが、OpenAI / DeepSeek と同程度
  • Factuality: SimpleQA 54.0%、FACTS Grounding 87.8%で実データに基づく生成に強み
  • Visual/Video/Image Understanding: MMMU 82.0%、Vibe-Eval(画像)67.2%、VideoMMMU(動画)83.6%でテキスト・画像・動画のすべてに強み
  • Long Context (MRCR v2, 128K): 58.0%で OpenAI、Anthropic、xAI など主要競合モデルを上回る最高性能

価格と対応言語

  • 入力価格: $1.25 / 100万トークン(200K超は $2.50)
  • 出力価格: $10 / 100万トークン(200K超は $15)
  • 対応言語: 70以上のグローバル言語(マルチポリグロット 89.2%)

利用先と追加機能

  • Google AI Studio、Vertex AI ですぐにプレビュー利用可能
  • Thinking Budget など、開発者向けのコスト・レイテンシ制御機能を追加
  • コーディング、知識、マルチモーダル、長文処理 など、実務での活用に適した機能を強化

結論

  • Gemini 2.5 Pro は 価格、性能、汎用性、マルチモーダル、長文コンテキスト などさまざまな項目で競合他社より優れている
  • 企業向け・開発者向け AI 導入時に、主要ベンチマークに基づく明確な比較とコスト効率 をあわせて検討できる

1件のコメント

 
GN⁺ 2025-06-07
Hacker Newsの意見
  • Googleがlmarenaでさらに約25 ELO上げたことに感心していたが、前の#1もGeminiだった点に気づかされる流れ GeminiとClaude Opus 4の両方をここ数週間かなり使ってみた結果、自分の感覚ではOpusのほうが次元が違うと感じた 複雑なTypeScriptの問題を扱っていると、Geminiはある時点で同じところをぐるぐる回ったり、しまいにはできないと言い出したりするのを初めて見たが、Opusはあっさり解決する印象 この事例が全体性能の一断面を示しているにすぎないのは承知しているが、Geminiはコードを無理やり動かす感じなのに対し、Opusは問題の本質を捉えてよりきれいにアプローチする点が違いだと感じる Opusのほうが想像力が豊かで、エージェント的な課題により最適化されているようにも感じた Opusがplaywrightスクリプトを作ってDOMをダンプし、分析してインタラクションの問題を点検するなど、予想外の解決策を単発で作ったのは特に印象的だった Geminiはコードそのものを執拗に読み込んでバグを取ろうとするが、そのアプローチには限界があると感じる それでもGeminiも優れたモデルで、4.0以前なら最高だと思っていた

    • 個人的にはOpus 4よりもo3のほうが好みで、ここ1か月AIコード生成ツールに数百ドル使いながら自分なりのランキングを作ってみた 1位はo3。細部の処理、問題の本質の把握、実運用に使える高品質なコード作成に非常に優れている 欠点はカットオフウィンドウとコスト、そしてツール利用を好みすぎる点 Railsプロジェクトではほぼ問題ないが、時々影響がある 2位はOpus 4(Claude Code経由で使用)。性能も良く、o3より安いので普段使いはこちらが中心 Opus 4に計画や最初のドラフトを作らせ、それをo3が細かく批評してフィードバックのリストを作り、完成度を本当に高めるのに使っている 3位はGemini 2.5 Pro。今回の最新リリースはまだ試していないが、以前は2位だった 今はSonnet 4と同格か、やや上くらい。状況次第 4位はSonnet 4。コード量は多いが、直接コーチングや監督をしないと本当に質が高く、簡潔で、深みのあるコードは出してこない 自分はコード品質や構成(命名、再利用性など)にかなりこだわるので、先月のCursor統計では自動提案コードの受け入れ率は33%しかなかった 最適ルートでない時は、誤った要求を修正して再度プロンプトを練り直しながら、より良い結果を目指している

    • Geminiの最も優れた点は、他モデルと比べた検索機能の強さ 会社のドメインからスパムを送ってくる相手向けのメール作成を頼んだら、ホスティング事業者のabuseメール、ドメイン情報、mxサーバー、IP、データセンターまで全部見つけてくれた 論文をポッドキャストに変換してほしいと頼んだ時もすぐやってくれて、聴いていてかなり面白かった

    • 今週Claude 4とGemini 2.5に同じ課題を与えたところ、Geminiは正解を出し、Claudeはうまくできなかった 特にSQLクエリ比較のような難しい課題でなくても、Geminiが実際の問題を見つけることが多かった

    • 実際には状況次第でかなり印象が変わる ある問題はGeminiがさくさく解決したのに、その直後にはごく簡単なバグで詰まるという混乱した体験もあった o3やsonnetも同様で、4.0はまだ十分に使っていないので評価は保留 複数モデルを並列評価して最適な解決策を選べる支援が必要だと感じる

    • o3でも試したかと聞かれた 自分のユースケースではo3のほうがOpus 4よりはるかに印象的だった

  • OpenAIの市場価値について、だんだん不安のほうが大きくなってきた 強力な競合が増え、もはや圧倒的なリーダーではないという評価には説得力がある 3,000億ドルのバリュエーションで今後どう資金調達していくのか気になる 収益は少なく、ハードウェアや電気代などのコストは増え続ける中で、実質的な価値の算定が難しい 次世代LLMが新しいデータを必要とする段階では、FacebookやGoogleが有利になりそうな構図 自前で大きなデータビジネスを持たないOpenAIは、独占データ競争で不利だと思う 研究とユーザー向けアプリの両方でリーダーだった時期なら高い価値も正当化できたが、今はその信頼の根拠が弱い 新規投資家がOpenAIからどんな利益を得られるのか疑問 3,000億ドルのバリュエーションなら、一般には売上2倍相当の1,500億ドル売上が求められ、極端なP/E(100倍)でも年30億ドルの利益、しかも10年連続で倍成長するシナリオが前提になる(2000年代のAmazonのように) 現在は非営利・営利の構造問題もあり、上場自体が簡単ではないかもしれない Googleの成果には祝意を送りつつ、AI競争で最大の勝者になる可能性が高いと見ている

    • OpenAIの市場での立ち位置について誤解が大きいという意見 "chatgpt"はすでに日常の動詞として定着しており、ClaudeやGeminiは一般人にはほとんど知られていない 何か画期的なことが起きない限り、大衆が他製品へ乗り換える理由もない ChatGPTが持つ会話履歴、メモリ、エクスポート周りの利便性だけでも、十分な乗り換え障壁になっている 5億人のアクティブユーザーを相手に、OpenAIがやるべきことは品質維持だけでよい 今のパラダイムが続くなら、先頭でなくても他社技術に追いつくことは可能 一般ユーザーは少し良くなった程度では製品を変えない

    • バリュエーション計算に誤りがあるという指摘 3,000億ドルの2倍売上ではなく、1,500億ドル売上が正しい ただし基本的な論旨は依然として有効

    • 現時点でOpenAIが明確に優れている分野は画像生成 イラスト、漫画、写真編集、ホームプロジェクトのアイデア出しでは差別化されている

    • GoogleがAI競争で勝っていても、検索ビジネスは依然として侵食されるだろうし、 AIによって市場支配力から経済的利益を引き出せるかは未知数だという見方 競争せざるを得ないが、広告中心の独占体制だった時代のほうがよかっただろうという考え

    • o3 proとGPT 5のリリースが近いので、OpenAIがリーダーではないと断定するにはまだ早いという立場 もしこの2モデルが目立った進歩を示せなければ、その時点で初めてリーダーシップ喪失を考えるべき 今のところは少なくともGoogleなどと肩を並べている印象

  • 同じモデルでプレビュー版を3つも出すだけでもややこしいのに、最後の2つの日付(05-06と06-05)まで入り交じっていてさらに混乱する 1日ずらしていれば明確だったのにという惜しさがある

    • 日付が紛らわしいせいで、実質13日までずらさないと混乱が解けない構造 カナダではイギリス式とアメリカ式の日付表記が混在していて本当にややこしい 最近はy-m-d形式が正式に許容され、徐々に広まっている

    • 05-06と06-05が紛らわしい状況自体が、OpenAIの4oやo4モデルを露骨にからかっているようにも見える

    • Gemini 2.5 proから2.6 proへいつ移るのか気になる Gemini 3ではたぶんサイズがさらに大きくなるだろうという予想

    • 開発者は本当にネーミングが苦手だという冗談

  • Geminiでだけ感じる問題が2つある

    1. 明示的に名前を変えろと言っていないのに変数名をリネームすることがある
    2. たまに閉じ角括弧を落とす 自分は変数名を簡潔にするのが好きで、"json"だけ使うこともあるが、フィードバック自体はありがたいとしても、そうした変更が増えるとコードレビューが難しくなる
    • 具体的にGeminiが誤処理するケースの例 processing_class=tokenizerと明確に指定したコードを何度修正しても、Geminiはtokenizer=tokenizerに変えてしまう しかもコメント全体でDO NOT CHANGEと書いてあっても、繰り返し誤って変更する 最新版(06-05)はまだ試していないが、直前の05-06でも同じエラーが繰り返された

    • 実質的にo1-proもGeminiと並んで自分の最上位グループに入ることを強調したい ただGeminiは不要なコメントや無関係なコード変更が多すぎて、実務には使いにくい アイデア探索には役立つが、最終解はo1-proを使う形にしている

    • Geminiは本当にばかばかしい非実行コメントまで大量に追加する "# Added this function"、"# Changed this to fix the issue" など こういうものはコミットメッセージやPRに書くべきで、わざわざコード内コメントに入れるのは不便

    • ChatGPTも特定の指示をまるごと無視することが多い たとえば「em dashやen dashを使うな」とどれだけ強調しても、むしろ余計に入れてくる 何度試しても、一度もまともに制御できたことがない

  • ChatGPT PlusとGemini Proの両方に課金して使っている ChatGPTはしょっちゅうrate limitに引っかかるので解約を考えている Gemini/AI Studioでは今のところ一度もrate limitに達したことがない

    • AI Studioは実際にはAPIアカウントをバックエンドで使っており、Google Cloudの無料枠プロジェクトが自動生成される "get an api key"ページ下部で請求先アカウントを紐付け可能 無料ティアAPIはGoogleの利用規約上、商用利用に当たらない可能性があり、プロンプトが人間にレビューされて学習データに使われることもある

    • AI StudioはAPIを使っているため、普通の利用者が有料プレビューモデルで実質的な上限に達するケースはかなりまれ

    • GeminiのほうがChatGPTよりずっと気に入っていたが、最近Proプランに1日100メッセージ制限が付いた AI Studioにはまだ制限がないようだ

    • openrouterのような中継経由でAPIを使わない理由があるのか気になる

  • 以前のGeminiモデルは、コーディング補助用途ではClaude 3.7 Sonnetより劣ると感じていた(4はさらにひどい) 新しいバージョンも、実際の評価が出るまでは試すつもりはない ネット上でGeminiを絶賛する声が多いのは自分の体験とあまりに違うので、露骨なマーケティングや人為的な盛り上げが混ざっているのではと疑ってしまう

    • どのモデルでも、実際に何をさせるかで評価は変わるという立場 Claude 3.5/3.7 SonnetはC/C++/Make/CMakeではまったく役に立たないレベルだった 誤情報、不可能なコードの返却、無意味な文法やAPIの捏造、論理矛盾など、ひどい体験が多かった Gemini 2.5-proとo3は圧倒的に良く、チーム全体でも優れていると言うほどだった 一方でClaudeがTypeScriptやRubyなどには強いのかもしれないが、少なくとも自分の仕事ではGeminiは宣伝の誇張以上の実力があった

    • Claudeは使ったことがないが、Geminiは日常的な質問ではChatGPTやCopilotより常に良い答えをくれた 特に検索用途(コマンドラインのやり方、製品情報など)ではGeminiが明らかに強い

    • AiderでSonnetとGeminiを交互に使っている 不思議なことに、ある問題は片方のモデルだけが解け、事前に分かるパターンもない

    • Claude 3.7 SonnetのほうがコーディングアシスタントとしてGeminiより良いという意見だが、データサイエンスや複雑なPython ETLではClaudeは期待外れで、o3のほうがはるかに優れていた

    • Roo CodeではClaudeのほうがツール使用は上手いが、Geminiの簡潔なコードスタイルのほうが好みに近い 両方を混ぜて使うか、片方が失敗したらもう片方を使って問題を解決している

  • プレビュー版に日付だけ付けて出し続けるのではなく、パッチ番号だけ上げてくれたほうがよいと思う

    • 既存バージョンを前提に作られたエコシステムへ影響を与えないためには、大きな更新ごとに新モデルとして分ける必要がある
  • Aider基準で82.2を記録 実際にはo3 highの公式スコアに比べるとまだ及ばない状況 Aiderリーダーボードへのリンク

    • 82.2が他モデルのPercent correct基準と同じかという質問 "pure" o3 (high) は79.6%、"o3 (high) + gpt-4.1" の組み合わせが最高82.7%に相当 旧Gemini 2.5 Pro Preview 05-06は76.9%程度 かなり大きなジャンプだと評価 Aider benchmarksは現時点で最も信頼されているベンチマークだ

    • はるかに安くて速い点が特に驚き

    • 言及されているスコアは古い05-06プレビューのもので、今日公開された新バージョンではない点を指摘

  • 06-05が03-25と05-06の間のギャップを埋めるというツイートへの言及 関連ツイート

  • Claude 4 Sonnetとのコード比較に関心 このブログの表によると、Claude 4 Sonnetより明確に劣ると示されている

    • 実際には大半のベンチマークがプログラミング(コーディング)関連で、SWE-BenchだけClaudeのほうが高得点 どのベンチマークが実務を最もよく反映するか判断は難しいが、コミュニティではAider Polyglotの評判が高い