9 ポイント 投稿者 GN⁺ 2025-04-01 | 1件のコメント | WhatsAppで共有
  • Gemini 2.5 Pro のほうがコード作成に優れている
  • Claude 3.7 Sonnet も優秀だが、現時点では Gemini 2.5 Pro を使うほうが有利
  • 100万トークンのコンテキストウィンドウ と無料で利用できる点が大きな強み
  • 以前は Claude 3.7 Sonnet が常に比較基準だったが、今では変わった

Gemini 2.5 Pro の簡単な紹介

  • Google が 2025年3月26日に公開した実験的な推論モデル
  • 公開後、Twitter(X) や YouTube などで非常に大きな反響を呼んだ
  • LMArenaで1位 を記録し、コード作成、数学、科学、画像理解などで非常に優れた性能を示した
  • 100万トークンのコンテキストウィンドウ を提供し、今後 200万トークン も予告されている
  • SWE Bench 基準の正確度は 63.8% で、Claude 3.7 Sonnet の 62.3% より高い
  • Google が公開した恐竜ゲームのデモなど、さまざまな例で優れた性能を証明した
  • 全体として コーディングだけでなく、あらゆる知的作業に適した万能モデル と評価されている

コーディングテスト比較

1. フライトシミュレーター作成

  • Gemini 2.5 Pro
    • 完璧に動作するシミュレーターを生成
    • 飛行機の操縦、Minecraftスタイルの都市生成など、すべての要件を満たした
    • 完成度 10/10
  • Claude 3.7 Sonnet
    • 飛行機が横向きに飛び、都市の外へ出てしまう問題が発生
    • 機能面での完成度が低い
  • 要約: Gemini 2.5 Pro の完全勝利

2. ルービックキューブの可視化と解法

  • Gemini 2.5 Pro
    • 一度で正確な可視化と解法を実装
    • Three.js を使い、キューブの色、ランダムシャッフル、アニメーションなどを完璧に実装
  • Claude 3.7 Sonnet
    • 色の表示に失敗し、解法にも失敗
    • 他の LLM と同様の限界を見せた
  • 要約: この項目でも Gemini 2.5 Pro が圧倒的優位

3. 4次元テッセラクト内部で跳ねるボールの可視化

  • Gemini 2.5 Pro
    • 物理衝突や面の強調など、要求事項をすべて満たした
    • コード品質と動作状態が非常に優秀
  • Claude 3.7 Sonnet
    • 機能は動作するが、不要な色が追加されている
    • それでも必要な機能は満たしている
  • 要約: 両モデルとも要件を満たし、Claude もついに成功

4. LeetCode 問題: 3つのルーク配置で最大和を求める

  • Gemini 2.5 Pro
    • 複雑なコードではあるが、正確な解法
    • 時間計算量も適切に考慮している
  • Claude 3.7 Sonnet
    • 簡潔なコードを書くが、時間超過(TLE) が発生
    • 理解しやすい一方で、性能面では不十分
  • 要約: 性能と正確性の両面で Gemini 2.5 Pro が上回る

結論

  • Gemini 2.5 Pro が明確に優位
    • コンテキストウィンドウ、正確度、マルチタスク性能で Claude 3.7 Sonnet を上回る
  • Claude も依然として優れたモデルだが、現時点では Gemini を使うほうがより効率的
  • 今後 200万トークンのウィンドウ まで拡張されれば、性能はさらに向上するだろう
  • Google の最近の軽量モデル Gemma 3 27B とあわせて、強力な AI ラインアップを形成している

1件のコメント

 
GN⁺ 2025-04-01
Hacker Newsの意見
  • 実際のコーディング問題について賞金付きのコンテストを開きたい。ルールを決める必要がある。LLMがこの問題を解けるのか疑問

    • SolvespaceのGTK 4版を作ること
    • 各プラットフォームごとに単一のC++ファイルが存在する
    • GTK3ファイルをGTK4に書き直すのが目標
    • AIの性能を証明したいなら、セッション全体を記録してYouTube動画にすることを勧める
    • 最終テストはPRを受け入れるかどうか
  • Geminiモデルは、会話を打ち切るべき時点を知らせてくれる唯一のモデル

    • ChatGPTはコンテキストがいっぱいになると会話を忘れがち
    • Geminiはツールが不足しているが、ベースモデルとしてはより優れているように感じる
  • Gemini 2.5 Proを使ったが、かなり良いと思った

    • Claude 3.5のほうが指示追従は優れているようだ
    • CursorとClaude CLIツールには失望した
    • Geminiのコンテキストウィンドウの表示方法は良い
    • 市場は大手AI企業の評価に耐えられないと思う
    • 無料モデルのほうが優れている場合もある
  • AIモデル競争の敗者はMicrosoftに見える

    • ChatGPTが唯一の選択肢だった頃、Microsoftはリーダーと見なされていた
    • Copilotは失敗作で、BingはAIを活用できなかった
    • GoogleのSundar Pichaiは、Microsoftのモデルと比較したいと述べた
  • Gemini 2.5 Proはaider polyglot coding leaderboardで高得点を記録している

    • 主にaiderの最新リリース作業に使われている
    • 現在のGeminiの最大の問題は厳しいレート制限
  • ルービックキューブの例では、Gemini 2.5は記憶済みのスクランブル手順を使っている

    • スクランブル手順を逆順に変換してキューブを解く
  • 90年代にVisual Basicを使っていたとき、テンプレートから新しいプロジェクトを作るのは面白かった

    • AIコーディングはそれに似ているが、誇張されている感じがある
    • Claudeの飛行機が横向きになっていたことに混乱していたという言及がある
  • Gemini 2.5は複雑なCythonコードではいまひとつ

    • Claudeとo3は指示によく従う
    • Geminiは無関係な変更を試みる
  • 偏りのない議論が必要かどうかという疑問がある

    • OPのリンクはComposioの偏った広告に見える
    • Gemini 2.5 Proについて大げさな説明がある
  • すべてのテスト課題はグリーンフィールドプロジェクト

    • LLMを使うには既存プロジェクトで変更や修正を行う必要がある
    • テストはモデルの有用性を測るうえで意味がないと思う