7 ポイント 投稿者 GN⁺ 2025-08-06 | まだコメントはありません。 | WhatsAppで共有
  • Claude Opus 4.1 は、実務向けコーディングエージェンティック作業推論能力を強化したアップグレード版
  • SWE-bench Verifiedでは74.5%の最高コード性能を記録し、大規模コードベースでの精密デバッグマルチファイルリファクタリングなどで優れた結果を示した
  • 実際に Rakuten、GitHub、Windsurf などの実ユーザーから、コード修正精度、日常的なデバッグ時の効率性、ジュニア開発者ベンチマークの明確な改善が評価された
  • マルチファイルリファクタリングや詳細なコード修正など、実開発環境でより洗練された性能を示す
  • 既存の Opus 4 ユーザーは追加コストなしで API、Claude Code、Amazon Bedrock、Google Vertex AI ですぐに利用可能

Claude Opus 4.1 主な特徴

  • 既存の Claude Opus 4 と比べ、エージェンティック作業、実コード作成、複雑な推論タスクで性能が向上
  • 今後数週間以内にモデル上でさらに大規模な改善が予定されている

主な改善点

  • SWE-bench Verifiedで74.5%のコード性能を達成
    • 深掘り調査とデータ分析能力、特に詳細情報の追跡とエージェンティック検索で顕著な改善効果を示した
    • 大規模オープンソースリポジトリのバグ修正問題を解く実コードベースのベンチマークで優秀な成績を記録
  • マルチファイルリファクタリング大規模コードベース内の精密デバッグなど、実務開発者の作業に最適化
    • GitHubでは Opus 4.1 がほとんどの機能で従来の Opus 4 を上回り、特に マルチファイルコードリファクタリングで顕著な結果を示した
    • Rakuten Groupは、Opus 4.1 が膨大なコードベース内で 必要な箇所のみを正確に修正し、不必要な変更やバグ混入を起こさずスタイルを維持する点を高く評価した
    • Windsurfは自社のジュニア開発者ベンチマークで Opus 4.1 が Opus 4 と比較して1標準偏差だけ成績が改善し、Sonnet 3.7 から Sonnet 4 へのアップグレードと匹敵する性能向上と評価した

項目別性能比較

  • エージェンティックコーディング(SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • 先代 Claude(Opus 4): 72.5%、Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • 実際のオープンソースコード修正作業で最高精度を記録
  • エージェンティック・ターミナルコーディング(Terminal-Bench)
    • Claude Opus 4.1: 43.3%(最高)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • 大学院レベル推論(GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3%(最高)
    • Gemini 2.5 Pro: 86.4%(最高)
  • エージェンティックツール利用(TAU-bench)
    • 小売シナリオ: Claude Opus 4.1 82.4%(最高)、Opus 4 81.4%、Sonnet 4 80.5%、OpenAI o3 70.4%
    • 航空シナリオ: Claude Opus 4.1 56.0%、Opus 4 59.6%、Sonnet 4 60.0%、OpenAI o3 52.0%
    • Gemini 2.5 Pro はこの部門のスコアを非公表
  • 多言語Q&A(MMMLU)
    • Claude Opus 4.1: 89.5%(最高)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: 非公表
  • 視覚推論(MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9%(最高)
    • Gemini 2.5 Pro: 82%(最高)
  • 高校数学コンテスト(AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9%(最高)
    • Gemini 2.5 Pro: 88%(最高)
  • ベンチマーク表の要約

    • Claude Opus 4.1は前作に比べすべての領域で一貫した上昇傾向を示し、実コード自動化、マルチファイルリファクタリング、多言語QA、ツール使用など実務寄りのベンチマークで最高成績を記録
    • 数学、視覚推論、高度推論(GPQA)領域では OpenAI o3、Gemini 2.5 Proが一部上回る一方、実際のコード生産性およびマルチ言語 QAでは Claude Opus 4.1 が最も優れている
    • 航空シナリオ(エージェンティックツール利用)は小幅下落、視覚推論と数学は他モデルがわずかに上回る

実際の使用・配備環境

  • 既存の Opus 4 ユーザーは、APIで claude-opus-4-1-20250805 にそのままアップグレードすることが推奨される
  • API、Claude Code、Amazon Bedrock、Google Vertex AIなど、さまざまな経路で導入および活用が可能
  • Opus 4 と同じ価格ポリシーを適用し、既存ユーザーならすぐにアップグレードを推奨
  • システムカード、モデル説明、価格、公式ドキュメントなどの各種リソースとあわせて、詳細なベンチマーク・評価方法も公開

今後の計画

  • Opus 4.1 は、コーディング・推論分野の最新アップデートを反映したマイルドアップグレードであり、今後数週間以内にさらに大幅な飛躍が予告されている
  • ユーザーのフィードバックを積極的に反映し、継続的な性能改善と機能拡張が予定されている

参考

  • OpenAI o3、Gemini 2.5 Pro など他社最新モデルとの比較データ出典、ベンチマーク結果、モデルごとの拡張推論の利用有無までを透明化して明示する

まだコメントはありません。

まだコメントはありません。