Gemini 2.5 Pro と Claude 3.7 Sonnet のコーディング比較

(composio.dev)

9 ポイント投稿者 GN⁺ 2025-04-01 | 1件のコメント | WhatsAppで共有

Gemini 2.5 Pro のほうがコード作成に優れている
Claude 3.7 Sonnet も優秀だが、現時点では Gemini 2.5 Pro を使うほうが有利
100万トークンのコンテキストウィンドウ と無料で利用できる点が大きな強み
以前は Claude 3.7 Sonnet が常に比較基準だったが、今では変わった

Gemini 2.5 Pro の簡単な紹介

Google が 2025年3月26日に公開した実験的な推論モデル
公開後、Twitter(X) や YouTube などで非常に大きな反響を呼んだ
LMArenaで1位 を記録し、コード作成、数学、科学、画像理解などで非常に優れた性能を示した
100万トークンのコンテキストウィンドウ を提供し、今後 200万トークン も予告されている
SWE Bench 基準の正確度は 63.8% で、Claude 3.7 Sonnet の 62.3% より高い
Google が公開した恐竜ゲームのデモなど、さまざまな例で優れた性能を証明した
全体として コーディングだけでなく、あらゆる知的作業に適した万能モデル と評価されている

コーディングテスト比較

1. フライトシミュレーター作成

Gemini 2.5 Pro
- 完璧に動作するシミュレーターを生成
- 飛行機の操縦、Minecraftスタイルの都市生成など、すべての要件を満たした
- 完成度 10/10
Claude 3.7 Sonnet
- 飛行機が横向きに飛び、都市の外へ出てしまう問題が発生
- 機能面での完成度が低い
要約: Gemini 2.5 Pro の完全勝利

2. ルービックキューブの可視化と解法

Gemini 2.5 Pro
- 一度で正確な可視化と解法を実装
- Three.js を使い、キューブの色、ランダムシャッフル、アニメーションなどを完璧に実装
Claude 3.7 Sonnet
- 色の表示に失敗し、解法にも失敗
- 他の LLM と同様の限界を見せた
要約: この項目でも Gemini 2.5 Pro が圧倒的優位

3. 4次元テッセラクト内部で跳ねるボールの可視化

Gemini 2.5 Pro
- 物理衝突や面の強調など、要求事項をすべて満たした
- コード品質と動作状態が非常に優秀
Claude 3.7 Sonnet
- 機能は動作するが、不要な色が追加されている
- それでも必要な機能は満たしている
要約: 両モデルとも要件を満たし、Claude もついに成功

4. LeetCode 問題: 3つのルーク配置で最大和を求める

Gemini 2.5 Pro
- 複雑なコードではあるが、正確な解法
- 時間計算量も適切に考慮している
Claude 3.7 Sonnet
- 簡潔なコードを書くが、時間超過(TLE) が発生
- 理解しやすい一方で、性能面では不十分
要約: 性能と正確性の両面で Gemini 2.5 Pro が上回る

結論

Gemini 2.5 Pro が明確に優位
- コンテキストウィンドウ、正確度、マルチタスク性能で Claude 3.7 Sonnet を上回る
Claude も依然として優れたモデルだが、現時点では Gemini を使うほうがより効率的
今後 200万トークンのウィンドウ まで拡張されれば、性能はさらに向上するだろう
Google の最近の軽量モデル Gemma 3 27B とあわせて、強力な AI ラインアップを形成している

1件のコメント

GN⁺ 2025-04-01

Hacker Newsの意見

実際のコーディング問題について賞金付きのコンテストを開きたい。ルールを決める必要がある。LLMがこの問題を解けるのか疑問
- SolvespaceのGTK 4版を作ること
- 各プラットフォームごとに単一のC++ファイルが存在する
- GTK3ファイルをGTK4に書き直すのが目標
- AIの性能を証明したいなら、セッション全体を記録してYouTube動画にすることを勧める
- 最終テストはPRを受け入れるかどうか
Geminiモデルは、会話を打ち切るべき時点を知らせてくれる唯一のモデル
- ChatGPTはコンテキストがいっぱいになると会話を忘れがち
- Geminiはツールが不足しているが、ベースモデルとしてはより優れているように感じる
Gemini 2.5 Proを使ったが、かなり良いと思った
- Claude 3.5のほうが指示追従は優れているようだ
- CursorとClaude CLIツールには失望した
- Geminiのコンテキストウィンドウの表示方法は良い
- 市場は大手AI企業の評価に耐えられないと思う
- 無料モデルのほうが優れている場合もある
AIモデル競争の敗者はMicrosoftに見える
- ChatGPTが唯一の選択肢だった頃、Microsoftはリーダーと見なされていた
- Copilotは失敗作で、BingはAIを活用できなかった
- GoogleのSundar Pichaiは、Microsoftのモデルと比較したいと述べた
Gemini 2.5 Proはaider polyglot coding leaderboardで高得点を記録している
- 主にaiderの最新リリース作業に使われている
- 現在のGeminiの最大の問題は厳しいレート制限
ルービックキューブの例では、Gemini 2.5は記憶済みのスクランブル手順を使っている
- スクランブル手順を逆順に変換してキューブを解く
90年代にVisual Basicを使っていたとき、テンプレートから新しいプロジェクトを作るのは面白かった
- AIコーディングはそれに似ているが、誇張されている感じがある
- Claudeの飛行機が横向きになっていたことに混乱していたという言及がある
Gemini 2.5は複雑なCythonコードではいまひとつ
- Claudeとo3は指示によく従う
- Geminiは無関係な変更を試みる
偏りのない議論が必要かどうかという疑問がある
- OPのリンクはComposioの偏った広告に見える
- Gemini 2.5 Proについて大げさな説明がある
すべてのテスト課題はグリーンフィールドプロジェクト
- LLMを使うには既存プロジェクトで変更や修正を行う必要がある
- テストはモデルの有用性を測るうえで意味がないと思う

Gemini 2.5 Pro と Claude 3.7 Sonnet のコーディング比較

Gemini 2.5 Pro の簡単な紹介

コーディングテスト比較

1. フライトシミュレーター作成

2. ルービックキューブの可視化と解法

3. 4次元テッセラクト内部で跳ねるボールの可視化

4. LeetCode 問題: 3つのルーク配置で最大和を求める

結論

関連記事

1件のコメント

Hacker Newsの意見