- Claude Opus 4.1 は、実務向けコーディング、エージェンティック作業、推論能力を強化したアップグレード版
- SWE-bench Verifiedでは74.5%の最高コード性能を記録し、大規模コードベースでの精密デバッグ、マルチファイルリファクタリングなどで優れた結果を示した
- 実際に Rakuten、GitHub、Windsurf などの実ユーザーから、コード修正精度、日常的なデバッグ時の効率性、ジュニア開発者ベンチマークの明確な改善が評価された
- マルチファイルリファクタリングや詳細なコード修正など、実開発環境でより洗練された性能を示す
- 既存の Opus 4 ユーザーは追加コストなしで API、Claude Code、Amazon Bedrock、Google Vertex AI ですぐに利用可能
Claude Opus 4.1 主な特徴
- 既存の Claude Opus 4 と比べ、エージェンティック作業、実コード作成、複雑な推論タスクで性能が向上
- 今後数週間以内にモデル上でさらに大規模な改善が予定されている
主な改善点
- SWE-bench Verifiedで74.5%のコード性能を達成
- 深掘り調査とデータ分析能力、特に詳細情報の追跡とエージェンティック検索で顕著な改善効果を示した
- 大規模オープンソースリポジトリのバグ修正問題を解く実コードベースのベンチマークで優秀な成績を記録
- マルチファイルリファクタリング、大規模コードベース内の精密デバッグなど、実務開発者の作業に最適化
- GitHubでは Opus 4.1 がほとんどの機能で従来の Opus 4 を上回り、特に マルチファイルコードリファクタリングで顕著な結果を示した
- Rakuten Groupは、Opus 4.1 が膨大なコードベース内で 必要な箇所のみを正確に修正し、不必要な変更やバグ混入を起こさずスタイルを維持する点を高く評価した
- Windsurfは自社のジュニア開発者ベンチマークで Opus 4.1 が Opus 4 と比較して1標準偏差だけ成績が改善し、Sonnet 3.7 から Sonnet 4 へのアップグレードと匹敵する性能向上と評価した
項目別性能比較
- エージェンティックコーディング(SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- 先代 Claude(Opus 4): 72.5%、Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → 実際のオープンソースコード修正作業で最高精度を記録
- エージェンティック・ターミナルコーディング(Terminal-Bench)
- Claude Opus 4.1: 43.3%(最高)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- 大学院レベル推論(GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3%(最高)
- Gemini 2.5 Pro: 86.4%(最高)
- エージェンティックツール利用(TAU-bench)
- 小売シナリオ: Claude Opus 4.1 82.4%(最高)、Opus 4 81.4%、Sonnet 4 80.5%、OpenAI o3 70.4%
- 航空シナリオ: Claude Opus 4.1 56.0%、Opus 4 59.6%、Sonnet 4 60.0%、OpenAI o3 52.0%
- Gemini 2.5 Pro はこの部門のスコアを非公表
- 多言語Q&A(MMMLU)
- Claude Opus 4.1: 89.5%(最高)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: 非公表
- 視覚推論(MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9%(最高)
- Gemini 2.5 Pro: 82%(最高)
- 高校数学コンテスト(AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9%(最高)
- Gemini 2.5 Pro: 88%(最高)
-
ベンチマーク表の要約
- Claude Opus 4.1は前作に比べすべての領域で一貫した上昇傾向を示し、実コード自動化、マルチファイルリファクタリング、多言語QA、ツール使用など実務寄りのベンチマークで最高成績を記録
- 数学、視覚推論、高度推論(GPQA)領域では OpenAI o3、Gemini 2.5 Proが一部上回る一方、実際のコード生産性およびマルチ言語 QAでは Claude Opus 4.1 が最も優れている
- 航空シナリオ(エージェンティックツール利用)は小幅下落、視覚推論と数学は他モデルがわずかに上回る
実際の使用・配備環境
- 既存の Opus 4 ユーザーは、APIで
claude-opus-4-1-20250805 にそのままアップグレードすることが推奨される
- API、Claude Code、Amazon Bedrock、Google Vertex AIなど、さまざまな経路で導入および活用が可能
- Opus 4 と同じ価格ポリシーを適用し、既存ユーザーならすぐにアップグレードを推奨
- システムカード、モデル説明、価格、公式ドキュメントなどの各種リソースとあわせて、詳細なベンチマーク・評価方法も公開
今後の計画
- Opus 4.1 は、コーディング・推論分野の最新アップデートを反映したマイルドアップグレードであり、今後数週間以内にさらに大幅な飛躍が予告されている
- ユーザーのフィードバックを積極的に反映し、継続的な性能改善と機能拡張が予定されている
参考
- OpenAI o3、Gemini 2.5 Pro など他社最新モデルとの比較データ出典、ベンチマーク結果、モデルごとの拡張推論の利用有無までを透明化して明示する
1件のコメント
Hacker News のコメント
3 つの主要研究所が数時間の差で同時に何かを発表していて、まるでアニメの狂気の展開のように感じる
Opus 4(.1) は本当に高い。リンク Sonnet も OpenRouter + Codename Gooseリンク で使えば時間あたり5ドル程度だ。驚くことに Sonnet 3.5 もリンク 同じ価格だ。Gemini Flashリンク がそれよりは合理的だが、結局きちんとした判断ができずにぐるぐる回ることが多い。OpenAI は悪くないが Claude のパフォーマンスには及ばない。とはいえ Claude は途中で CTRL-C を押すと API から400エラーが返ってきて不便だ。コスパ重視だと、コストパフォーマンスが最も良かったのは OpenAI ChatGPT 4.1 miniリンク だった。無意味なトークンの使いすぎもなく、API も常に安定して動作する。たまに混乱することもあるが、なんとなくは解決してくれる
Opus がコーディングでほぼすべての面で優位だと紹介されているが、実際は Sonnet のほうがずっと良いと感じている。誰かが Sonnet から完全に Opus に乗り換えたか、特定の作業だけ Opus で処理する場合があるのか気になる
Opus 4.1 は Opus 4 とほとんど同じで無駄に感じ、むしろトークンがより早く消費される印象。使用量を見えるようにしてくれると良い。少なくとも Sonnet 4 はまだ使えるが、出力結果がどんどんぼんやりしている。今日の午前中を Claude Code に無駄に使っていて、最初から自分でやっていたらよかったかもと思う一日だった
新しいモデルで Claude Plays Pokemon 放送が再開されたリンク。以前は Team Rocket の隠し場所で数週間足止めされていた
記事では「数週間以内にモデルが大幅改善される」と言っている。Sonnet 4 が私たちの製品に最も適していたが、Haiku 4(または4.1)が安いので一度使ってみたい。Anthropic が今回は Haiku 4 について一言も言及していないのが意外だった
Claude を使って今日が史上最悪の一日だった。もう崩壊状態だった。今日のデプロイが原因かは分からないが、ドキュメントに罵倒語が出てきて、何時間も行ったり来たりしてもバグが直らなかった
私は記事の「数週間以内にモデルが大幅改善される」という部分に最も関心がある
今回のアップデートは、彼らの基準でもほぼ改善がないレベル。悪いと言うつもりはないが、誰もその違いを体感できないだろう
Opus と Sonnet の価格が同じくらい高いから、Opus の使用量は Sonnet を絶対に超えないと思う。OpenRouter ランキングリンクを見ると、Sonnet 3.7 と 4 を合わせると Opus 4 より17倍多くのトークンを処理している