- Gemini 2.5 Pro のほうがコード作成に優れている
- Claude 3.7 Sonnet も優秀だが、現時点では Gemini 2.5 Pro を使うほうが有利
- 100万トークンのコンテキストウィンドウ と無料で利用できる点が大きな強み
- 以前は Claude 3.7 Sonnet が常に比較基準だったが、今では変わった
Gemini 2.5 Pro の簡単な紹介
- Google が 2025年3月26日に公開した実験的な推論モデル
- 公開後、Twitter(X) や YouTube などで非常に大きな反響を呼んだ
- LMArenaで1位 を記録し、コード作成、数学、科学、画像理解などで非常に優れた性能を示した
- 100万トークンのコンテキストウィンドウ を提供し、今後 200万トークン も予告されている
- SWE Bench 基準の正確度は 63.8% で、Claude 3.7 Sonnet の 62.3% より高い
- Google が公開した恐竜ゲームのデモなど、さまざまな例で優れた性能を証明した
- 全体として コーディングだけでなく、あらゆる知的作業に適した万能モデル と評価されている
コーディングテスト比較
1. フライトシミュレーター作成
- Gemini 2.5 Pro
- 完璧に動作するシミュレーターを生成
- 飛行機の操縦、Minecraftスタイルの都市生成など、すべての要件を満たした
- 完成度 10/10
- Claude 3.7 Sonnet
- 飛行機が横向きに飛び、都市の外へ出てしまう問題が発生
- 機能面での完成度が低い
- 要約: Gemini 2.5 Pro の完全勝利
2. ルービックキューブの可視化と解法
- Gemini 2.5 Pro
- 一度で正確な可視化と解法を実装
- Three.js を使い、キューブの色、ランダムシャッフル、アニメーションなどを完璧に実装
- Claude 3.7 Sonnet
- 色の表示に失敗し、解法にも失敗
- 他の LLM と同様の限界を見せた
- 要約: この項目でも Gemini 2.5 Pro が圧倒的優位
3. 4次元テッセラクト内部で跳ねるボールの可視化
- Gemini 2.5 Pro
- 物理衝突や面の強調など、要求事項をすべて満たした
- コード品質と動作状態が非常に優秀
- Claude 3.7 Sonnet
- 機能は動作するが、不要な色が追加されている
- それでも必要な機能は満たしている
- 要約: 両モデルとも要件を満たし、Claude もついに成功
4. LeetCode 問題: 3つのルーク配置で最大和を求める
- Gemini 2.5 Pro
- 複雑なコードではあるが、正確な解法
- 時間計算量も適切に考慮している
- Claude 3.7 Sonnet
- 簡潔なコードを書くが、時間超過(TLE) が発生
- 理解しやすい一方で、性能面では不十分
- 要約: 性能と正確性の両面で Gemini 2.5 Pro が上回る
結論
- Gemini 2.5 Pro が明確に優位
- コンテキストウィンドウ、正確度、マルチタスク性能で Claude 3.7 Sonnet を上回る
- Claude も依然として優れたモデルだが、現時点では Gemini を使うほうがより効率的
- 今後 200万トークンのウィンドウ まで拡張されれば、性能はさらに向上するだろう
- Google の最近の軽量モデル Gemma 3 27B とあわせて、強力な AI ラインアップを形成している
1件のコメント
Hacker Newsの意見
実際のコーディング問題について賞金付きのコンテストを開きたい。ルールを決める必要がある。LLMがこの問題を解けるのか疑問
Geminiモデルは、会話を打ち切るべき時点を知らせてくれる唯一のモデル
Gemini 2.5 Proを使ったが、かなり良いと思った
AIモデル競争の敗者はMicrosoftに見える
Gemini 2.5 Proはaider polyglot coding leaderboardで高得点を記録している
ルービックキューブの例では、Gemini 2.5は記憶済みのスクランブル手順を使っている
90年代にVisual Basicを使っていたとき、テンプレートから新しいプロジェクトを作るのは面白かった
Gemini 2.5は複雑なCythonコードではいまひとつ
偏りのない議論が必要かどうかという疑問がある
すべてのテスト課題はグリーンフィールドプロジェクト