- Claude Opus 4.5 は、コード作成、エージェント実行、コンピュータ活用で最高水準の性能を示すAIモデル
- 実際の ソフトウェアエンジニアリングテスト(SWE-bench Verified) で最高スコアを記録し、トークン効率と推論能力 が大幅に向上
- 価格は100万トークンあたり $5/$25 に引き下げられ、より多くの開発者と企業が Opus級の機能 を活用可能
- 新しい
effort パラメータ、コンテキスト管理、ツール利用の改善 などにより、Claude Developer Platform と Claude Code が大幅アップグレード
- セキュリティ・アラインメント強化 と プロンプトインジェクション防御力の向上 により、業界全体での AI活用への信頼性 を高める転換点
Claude Opus 4.5 概要
- Anthropic は Claude Opus 4.5 を公開し、コーディング・エージェント・コンピュータ活用で世界最高水準のモデルとして紹介
- 日常的な作業(リサーチ、スライド、スプレッドシート処理)でも性能が向上
- AIシステムが実行できる作業範囲を拡大する段階と評価
- Opus 4.5 は SWE-bench Verified テストで最高スコアを記録
- Anthropicアプリ、API、主要3大クラウドプラットフォームですぐに利用可能
- APIモデル名:
claude-opus-4-5-20251101
- 価格: 入力 $5 / 出力 $25(100万トークン基準)
初期ユーザーとテストフィードバック
- 内部テストでは、曖昧な問題への対処能力と複雑なバグ解決能力 が向上したと報告
- 複数企業の初期ユーザーが次のようなフィードバックを提供
- コード品質の向上 と トークン使用量の半減
- マルチステップ推論、長期の自律作業、エージェントワークフロー で優れた性能
- Sonnet 4.5比で15%以上改善した効率性
- 自己改善型AIエージェントの実装 の可能性を確認
- Excel自動化、3D可視化、コードレビュー、ストーリー生成 など多様な領域で性能向上
- ツール呼び出しエラーとビルドエラーを50〜75%削減、速度改善 を報告
性能評価
- Anthropicの内部 ソフトウェアエンジニアリング試験 で 人間候補者の最高スコアを上回る
- ビジョン、推論、数学能力 が全般的に向上し、多数のベンチマークで 最先端水準(SOTA) を達成
- τ2-bench テストでは創造的な問題解決の事例を提示
- 航空券の変更不可ポリシーを回避せず、合法的な手続き(座席アップグレード後の日程変更) で解決
- ベンチマーク上は失敗と記録されたが、創造的推論能力 の例として言及
安全性とアラインメントの向上
- Claude Opus 4.5 は、Anthropicが公開したモデルの中で 最も強くアラインされたモデル
- プロンプトインジェクション攻撃 に対する耐性は業界最高水準
- Gray Swan が開発した強力な攻撃ベンチマークでも優れた結果
- 「懸念される行動(concerning behavior)」スコアが低く、悪用や自律的な誤作動 の可能性を低減
- 詳細な安全性と性能評価は Claude Opus 4.5 システムカード に収録
Claude Developer Platform アップデート
- Opus 4.5 は 少ないトークンでより良い結果 を導出
- 新しい
effort パラメータ により、速度・コスト・性能のバランス調整が可能
- 中間
effort 水準では Sonnet 4.5 と同等性能で、出力トークンを76%削減
- 最高
effort 水準では Sonnet 4.5 比で 4.3%性能向上、48%トークン削減
- effort control、context compaction、高度なツール利用 機能により長期作業の効率が向上
- コンテキスト管理とメモリ機能 により、エージェント作業性能が15%向上
- プラットフォームは徐々に モジュール化・組み合わせ型の構造 へ進化中
製品アップデート
- Claude Code は Opus 4.5 ベースとなり、Plan Mode の精度と実行力が向上
- 実行前に plan.md ファイル を生成し、ユーザーが確認可能
- デスクトップアプリ で複数セッションの並列実行をサポート
- Claudeアプリ は長い対話の自動要約機能で コンテキストを維持
- Claude for Chrome はすべての Max ユーザーに提供
- Claude for Excel は Max、Team、Enterprise ユーザー向けにベータを拡大
- Opus 4.5専用の利用上限 を引き上げ、日常業務で活用可能に
追加情報
- すべての評価(evals)は 64K thinking budget、200K コンテキストウィンドウ、デフォルト
effort(high) 設定で5回平均を実施
- SWE-bench Verified、Terminal Bench など一部テストは別設定を使用
- 関連研究と詳細結果は Claude Opus 4.5 システムカード で確認可能
関連ニュース
- Claude、Microsoft Foundry および Microsoft 365 Copilot に統合
- Microsoft・NVIDIA・Anthropic が戦略的パートナーシップを締結
- Anthropic は Azure コンピューティング容量として300億ドル規模を購入、さらに最大1GWの追加契約を計画
- ルワンダ政府および ALX と協力 し、アフリカ地域でのAI教育を拡大
2件のコメント
5Gの通信料に、Netflixもサブスクしなきゃいけないのに、AIまでサブスクしなきゃならないなんて(涙)
Hacker Newsの反応
今回の発表で核心となるのは Opus 4.5の値下げ
$5/$25 per MTok は Opus 4 と比べて3分の1の水準で、もはや「重要な仕事にだけ使うモデル」ではなく、実際の本番ワークロードに投入できるモデルになった
また プロンプトインジェクション耐性 が SOTA 級だと主張しているが、もしシステムカードの数値が攻撃的なテストでも維持されるなら、これはツールへのアクセス権限を持つエージェントの導入者にとって大きな意味がある
ただし「最もアラインされたモデル」という表現はやや大げさに感じられ、サードパーティのレッドチーム結果が気になる
Opus 専用キャップが撤廃され、Max および Team Premium ユーザーも Sonnet 時代と同程度のトークンを使えるようになった
日常業務で Opus 4.5 を活用できるよう、利用上限を調整したとのこと
Amp チームの平均スレッド単価は Sonnet 4.5 が $1.83、Opus 4.5 が $1.30 程度だった
単純なトークン単価よりも、知能向上によるエラー減少のほうが大きなコスト削減要因だった
ベンチマーク向けのファインチューニングが強化されたようで、eqbench.com のような非ターゲットテストでの性能が気になる
もはや「安全性」という言葉そのものが別の意味へ進化しているように思える
これはプロンプトインジェクション耐性とは別問題かもしれない
今回のモデルは 2〜4週間は革新的だろうが、その後「ナーフ」が来そう
その後の数か月、性能低下を指摘する人たちは「実力不足」のせいにされ、エンジニアが「いくつかのバグ」を発見したと発表したあとで Opus 4.7 が出るだろう
もう自分の忠誠心は ナーフ周期単位で測られている
ベンチマーク上では性能低下の証拠がないからだ
もし人間が感じる低下が本物なら、それは ベンチマークでは捉えられない要因(x-factor) が存在することを示唆する
v2.5 世代以降は性能低下がなく、Anthropic はもしかすると 量子化モデルへの差し替えをしているのではないかと疑っている
文脈依存度の低い単発の問い合わせでは、性能低下が比較的少ない
Gemini 3 Pro を Cursor で使ってみたが、Sonnet 4.5 よりかなり弱い
Claude Code でしか解けなかった問題もあり、Sonnet 4.5 は Cursor 内でも特によく動く
Anthropic が ソフトウェアエンジニアリング中心の戦略を取ったのは正しい判断だと思う
2026年に向けて最も期待しているモデルだ
str_replace_editorのような 内蔵ツールがあるCursor にはこうしたツールがないため、性能差が出る
関連ツイートは こちら を参照
Opus/Sonnet/GPT のほうが エージェント型ワークフローにはるかに適している
Azure GPT-4.1、Bedrock Sonnet 4、Perplexity のほうがずっと安定していた
他の人の経験も気になる
Claude Opus 4.5 システムカード はマーケティングブログよりはるかに詳細だ
150ページの PDF で、欺瞞(deception) に関するセクションが特に興味深い
たとえば Anthropic の安全チーム解体のニュースを入力されても、その情報をユーザーに隠す事例がある
CBRN 関連のリスクも扱っており、Opus はまだ ASL-3 水準なので大規模な危険ではない
これに関するブログのまとめを ここ に投稿した
今回のベンチマーク結果は本当にうれしい
おかげで 既存の Coding Agent を維持できるようになった
変化の速い AI 環境で FOMO なしに追い続けるのがますます難しくなっていたが、今回は Anthropic が再び競争力を証明した
Sonnet と Claude Code の組み合わせで十分安定しており、4.5 以降は自動的にさらに良くなった
Codex に乗り換えろという誘惑はそのまま無視している
Claude が少し良いコードを生成するとしても、GPT は リクエスト無制限なので試行の自由度が高い
Opus は意味のある前進だが、根本的なワークフロー変化ではないだろう
競争の中でもしっかり踏ん張ってほしい
Codex は制限に引っかかったときだけ一時的に使っている
Opus 4.5 の 高度なツール機能が特に印象的だった
Advanced Tool Use の文書によれば、ツール検索、プログラム的な呼び出し、in-context の例学習などが可能だという
ツール定義だけで13万トークン使ったと聞いて驚いた
パズルゲームのデモ動画も興味深かった
Simon Willison の Opus レビュー を読んだ
ほとんどの課題では、モデルより ツーリングの格差のほうが大きい
There model→Their modelARC-AGI-2 リーダーボードを見ると、モデル間の コスト対性能比較が明確だ
Opus 4.5 は Gemini 3 と比べて素晴らしい成績を見せており、Gemini 3 Deep Think は依然として1位だが、コストは30倍以上だ
2024年12月に OpenAI が ARC-AGI-1 の人間性能を突破したときは 1タスクあたり $3,000 かかっていたが、今では 数ドル水準まで下がり、80倍の削減となっている
リーダーボード と 関連ブログ を参照
同じツールアクセス権を与えれば、両モデル間の差は小さくなる
最近の LLM は 改善速度が鈍化しているように感じる
精度向上はわずかだが、効率性の改善は大きいと思う
最近 Sonnet 4.5 がバカになった気がする
簡単な CSS すらまともに処理できなかった
Opus が3倍安くなったのは良いが、Claude Code Pro サブスクリプションではまだ使えない
/model opusplanコマンドで計画段階では Opus を使えるが、クレジットが消費される仕組みなので不透明だ簡単な CSS 修正に $0.95 かかり、高すぎる
今後は手動で Opus と Sonnet を切り替えてみる予定だ
ピーク時間帯には性能低下が避けられないので、負荷シグナル機能があるとよい
新モデル宣伝のために意図的に下げたのか、あるいは 無料クレジット配布で負荷が増えて量子化版を回しているのかもしれない
Anthropic の 不透明さと不安定さが残念だ
単なる一時的な不具合だと思っていたが、何かが変わったように感じる