7 ポイント 投稿者 GN⁺ 2025-08-06 | 1件のコメント | WhatsAppで共有
  • Claude Opus 4.1 は、実務向けコーディングエージェンティック作業推論能力を強化したアップグレード版
  • SWE-bench Verifiedでは74.5%の最高コード性能を記録し、大規模コードベースでの精密デバッグマルチファイルリファクタリングなどで優れた結果を示した
  • 実際に Rakuten、GitHub、Windsurf などの実ユーザーから、コード修正精度、日常的なデバッグ時の効率性、ジュニア開発者ベンチマークの明確な改善が評価された
  • マルチファイルリファクタリングや詳細なコード修正など、実開発環境でより洗練された性能を示す
  • 既存の Opus 4 ユーザーは追加コストなしで API、Claude Code、Amazon Bedrock、Google Vertex AI ですぐに利用可能

Claude Opus 4.1 主な特徴

  • 既存の Claude Opus 4 と比べ、エージェンティック作業、実コード作成、複雑な推論タスクで性能が向上
  • 今後数週間以内にモデル上でさらに大規模な改善が予定されている

主な改善点

  • SWE-bench Verifiedで74.5%のコード性能を達成
    • 深掘り調査とデータ分析能力、特に詳細情報の追跡とエージェンティック検索で顕著な改善効果を示した
    • 大規模オープンソースリポジトリのバグ修正問題を解く実コードベースのベンチマークで優秀な成績を記録
  • マルチファイルリファクタリング大規模コードベース内の精密デバッグなど、実務開発者の作業に最適化
    • GitHubでは Opus 4.1 がほとんどの機能で従来の Opus 4 を上回り、特に マルチファイルコードリファクタリングで顕著な結果を示した
    • Rakuten Groupは、Opus 4.1 が膨大なコードベース内で 必要な箇所のみを正確に修正し、不必要な変更やバグ混入を起こさずスタイルを維持する点を高く評価した
    • Windsurfは自社のジュニア開発者ベンチマークで Opus 4.1 が Opus 4 と比較して1標準偏差だけ成績が改善し、Sonnet 3.7 から Sonnet 4 へのアップグレードと匹敵する性能向上と評価した

項目別性能比較

  • エージェンティックコーディング(SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • 先代 Claude(Opus 4): 72.5%、Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • 実際のオープンソースコード修正作業で最高精度を記録
    広告
  • エージェンティック・ターミナルコーディング(Terminal-Bench)
    • Claude Opus 4.1: 43.3%(最高)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • 大学院レベル推論(GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3%(最高)
    • Gemini 2.5 Pro: 86.4%(最高)
  • エージェンティックツール利用(TAU-bench)
    • 小売シナリオ: Claude Opus 4.1 82.4%(最高)、Opus 4 81.4%、Sonnet 4 80.5%、OpenAI o3 70.4%
    • 航空シナリオ: Claude Opus 4.1 56.0%、Opus 4 59.6%、Sonnet 4 60.0%、OpenAI o3 52.0%
    • Gemini 2.5 Pro はこの部門のスコアを非公表
  • 多言語Q&A(MMMLU)
    • Claude Opus 4.1: 89.5%(最高)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: 非公表
  • 視覚推論(MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9%(最高)
    • Gemini 2.5 Pro: 82%(最高)
    広告
  • 高校数学コンテスト(AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9%(最高)
    • Gemini 2.5 Pro: 88%(最高)
  • ベンチマーク表の要約

    • Claude Opus 4.1は前作に比べすべての領域で一貫した上昇傾向を示し、実コード自動化、マルチファイルリファクタリング、多言語QA、ツール使用など実務寄りのベンチマークで最高成績を記録
    • 数学、視覚推論、高度推論(GPQA)領域では OpenAI o3、Gemini 2.5 Proが一部上回る一方、実際のコード生産性およびマルチ言語 QAでは Claude Opus 4.1 が最も優れている
    • 航空シナリオ(エージェンティックツール利用)は小幅下落、視覚推論と数学は他モデルがわずかに上回る

実際の使用・配備環境

  • 既存の Opus 4 ユーザーは、APIで claude-opus-4-1-20250805 にそのままアップグレードすることが推奨される
  • API、Claude Code、Amazon Bedrock、Google Vertex AIなど、さまざまな経路で導入および活用が可能
  • Opus 4 と同じ価格ポリシーを適用し、既存ユーザーならすぐにアップグレードを推奨
  • システムカード、モデル説明、価格、公式ドキュメントなどの各種リソースとあわせて、詳細なベンチマーク・評価方法も公開

今後の計画

  • Opus 4.1 は、コーディング・推論分野の最新アップデートを反映したマイルドアップグレードであり、今後数週間以内にさらに大幅な飛躍が予告されている
  • ユーザーのフィードバックを積極的に反映し、継続的な性能改善と機能拡張が予定されている

参考

  • OpenAI o3、Gemini 2.5 Pro など他社最新モデルとの比較データ出典、ベンチマーク結果、モデルごとの拡張推論の利用有無までを透明化して明示する

1件のコメント

 
GN⁺ 2025-08-06
Hacker News のコメント
  • 3 つの主要研究所が数時間の差で同時に何かを発表していて、まるでアニメの狂気の展開のように感じる

    • こういう状況こそ PR チームがある理由だと思う。HN のメインページやニュースサイトで注目を集めることは非常に重要で、1位を取れなくても競合の注目を分散させることは必須だと思う
    • GPT-5 の噂を考えると、まだ8月の始まりにすぎないと感じる
    • 今どき生きているのが不思議な時代だ
    • 競合が先に発表するのを待ってから同時に出して、市場でどれが一番良いか判断させる感じ
    • これは明らかに偶然ではない
  • Opus 4(.1) は本当に高い。リンク Sonnet も OpenRouter + Codename Gooseリンク で使えば時間あたり5ドル程度だ。驚くことに Sonnet 3.5 もリンク 同じ価格だ。Gemini Flashリンク がそれよりは合理的だが、結局きちんとした判断ができずにぐるぐる回ることが多い。OpenAI は悪くないが Claude のパフォーマンスには及ばない。とはいえ Claude は途中で CTRL-C を押すと API から400エラーが返ってきて不便だ。コスパ重視だと、コストパフォーマンスが最も良かったのは OpenAI ChatGPT 4.1 miniリンク だった。無意味なトークンの使いすぎもなく、API も常に安定して動作する。たまに混乱することもあるが、なんとなくは解決してくれる

    • 大きいモデルは「モデル照会用」、小さいモデルは「コンテキスト質問用」という考えだ。Opus でも用途を絞れば安く使えると考えている
    • Claude Code をサブスクライプして使うと、ずっと合理的な価格で使えると思う。私は Max プランで一日中 Claude Code を使っていても、直近2週間で使用上限に達したのはたった2回だけだった
    • 価格比較をするたびに Claude API が常に最も安い。コンテキストキャッシュをちゃんと回せば入力単価が約90%も下がる。これはすごい
    • GLM 4.5、Kimi K2、Qwen Coder 3、Gemini Pro 2.5 のような代替手段も挙げたい
  • Opus がコーディングでほぼすべての面で優位だと紹介されているが、実際は Sonnet のほうがずっと良いと感じている。誰かが Sonnet から完全に Opus に乗り換えたか、特定の作業だけ Opus で処理する場合があるのか気になる

    • Opus は技術的には優れているかもしれないが、実際には大きな差は感じない。複雑な実装を LLM が一度に合わせるのはほぼ不可能だ。説明すべきことが多すぎて、結果的に正解を自分でコードの中に埋めてようやく気づくことになる。Opus がそれらしく見える答えを出しても、なぜその結果になったのか、なぜこのコンテキストで合うのかまで理解しなければならない。結局私の作業は、反復的に少しずつ進める単位が大半なので、Sonnet だけで十分だと思っている
    • Sonnet が突然おかしくなるとき(1日1、2回)は Opus に乗り換えると問題がすぐ解決するように思える。もちろん非科学的な経験で、実際どのモデルに変えても改善する効果かもしれない
    • 「Sonnet の方が良い」という話が出るのは科学的根拠がなく、モデルが大きければ良いのは当然だから人はあえて言わない。むしろ「小さいモデルの方が良い場合もある」というのが助言のように聞こえるので、その意見が目立って見えるようだ。昨日これを調べてみたが、人によって言うことが違っていた。得られる結論は、結局 Max プランで Opus から Sonnet に一時的に移っても品質低下をそれほど心配する必要はないという点だ
    • Opus は複雑で複数ステップが必要な問題解決や、文脈追跡が必要な長い作業でより良いようだ。だから難しい問題だけ Opus を使い、残りは Sonnet にする。概ねそれで十分で、トークン制限にもずっと当たりにくい
    • 私のように Max プランを使っている場合でも、Opus は Sonnet より成果物の品質が少し高い。ただしこれは Opus が使えるときに限られる。面白いことに Max プランでも使用制限がすぐかかる。昨日は出社して数分で使用上限に到達した
  • Opus 4.1 は Opus 4 とほとんど同じで無駄に感じ、むしろトークンがより早く消費される印象。使用量を見えるようにしてくれると良い。少なくとも Sonnet 4 はまだ使えるが、出力結果がどんどんぼんやりしている。今日の午前中を Claude Code に無駄に使っていて、最初から自分でやっていたらよかったかもと思う一日だった

    • 私も Sonnet がだんだん性能が落ちているのを感じている。説明が長くなり、冗長が増え、すべてをリストにしようとしている。しかも相槌を打ちすぎるので、競合にうんざりする癖がついてきている
    • これは私のプロジェクトが大きくなったせいだと思う。Claude Code が2000行から10万行を超えるプロジェクトに拡大したのに追従しようとするので、当然難しく感じる
    • 新しい Opus 4.1 は最初の会話でいきなり全体の Web アプリを作ろうとしたが、以前の詰まったロボットと違い、文脈把握をより早くし、システムについて正しく質問して更新用ドキュメント作成も完了させた。以前は毎回同じ説明を繰り返す必要があり、イライラしたが、今ではそうでない。代わりにトークン消費速度が明らかに速くなったので、昔のように何時間も会話を続けるのは難しい。とにかくトークンを使い切る前に最後のタスクを処理してくれればそれで満足だ
    • 「今日の午前を Claude Code に浪費した」という発言に『Welcome to the machine』リンク
  • 新しいモデルで Claude Plays Pokemon 放送が再開されたリンク。以前は Team Rocket の隠し場所で数週間足止めされていた

  • 記事では「数週間以内にモデルが大幅改善される」と言っている。Sonnet 4 が私たちの製品に最も適していたが、Haiku 4(または4.1)が安いので一度使ってみたい。Anthropic が今回は Haiku 4 について一言も言及していないのが意外だった

  • Claude を使って今日が史上最悪の一日だった。もう崩壊状態だった。今日のデプロイが原因かは分からないが、ドキュメントに罵倒語が出てきて、何時間も行ったり来たりしてもバグが直らなかった

  • 私は記事の「数週間以内にモデルが大幅改善される」という部分に最も関心がある

    • これは人々がすぐ GPT-5 に移ってしまわないように言っていると考える
  • 今回のアップデートは、彼らの基準でもほぼ改善がないレベル。悪いと言うつもりはないが、誰もその違いを体感できないだろう

    • たぶんほとんどは“バイブ”の違いだが、それも重要な要素だと思う。公式ベンチマークにはないが、Opus 4.1 はジュニア開発者ベンチマークで Opus 4 より約1標準偏差だけ性能が向上しており、これは Sonnet 3.7 から Sonnet 4 へのジャンプと同じレベルだという
    • まだきちんとテストしていないが、出力品質で明らかな差はないようだ。代わりに、提供されたドキュメントや指針をよりよく守るように感じるが、まだそれを定量化または客観的に確認してはいない。Opus 4.1 は Needles-in-the-Haystack の隠し情報を見つけるだけでなく、そういう要素をわざわざ指示しなくてもよりよく従っている
    • だからこれをバージョン名を4.1にしたと思う。4.5は絶対違うからだ
    • 将来10モデル余分に出す余地を残しているように見える。ベンチマークで100%を取れれば新モデルは必要ないので、あえて数値を調整するようなマーケティング感がある程度ある。そもそも訓練データセットと同じ問題だけ解くので、全く新しい質問には弱くなければならない
    • 成績表画像で Opus 4.1 だけをハイライトしていたのが面白かった。Opus 4.1 が半分ほどのベンチマークで最高点だが、残りはそうでもない、Opus 4.0より低いものさえあるのに、競合モデルの点数は一切表示されていない
  • Opus と Sonnet の価格が同じくらい高いから、Opus の使用量は Sonnet を絶対に超えないと思う。OpenRouter ランキングリンクを見ると、Sonnet 3.7 と 4 を合わせると Opus 4 より17倍多くのトークンを処理している