8 ポイント 投稿者 GN⁺ 2025-11-25 | 2件のコメント | WhatsAppで共有
  • Claude Opus 4.5 は、コード作成、エージェント実行、コンピュータ活用で最高水準の性能を示すAIモデル
  • 実際の ソフトウェアエンジニアリングテスト(SWE-bench Verified) で最高スコアを記録し、トークン効率と推論能力 が大幅に向上
  • 価格は100万トークンあたり $5/$25 に引き下げられ、より多くの開発者と企業が Opus級の機能 を活用可能
  • 新しい effort パラメータコンテキスト管理ツール利用の改善 などにより、Claude Developer PlatformClaude Code が大幅アップグレード
  • セキュリティ・アラインメント強化プロンプトインジェクション防御力の向上 により、業界全体での AI活用への信頼性 を高める転換点

Claude Opus 4.5 概要

  • Anthropic は Claude Opus 4.5 を公開し、コーディング・エージェント・コンピュータ活用で世界最高水準のモデルとして紹介
    • 日常的な作業(リサーチ、スライド、スプレッドシート処理)でも性能が向上
    • AIシステムが実行できる作業範囲を拡大する段階と評価
  • Opus 4.5 は SWE-bench Verified テストで最高スコアを記録
  • Anthropicアプリ、API、主要3大クラウドプラットフォームですぐに利用可能
    • APIモデル名: claude-opus-4-5-20251101
    • 価格: 入力 $5 / 出力 $25(100万トークン基準)

初期ユーザーとテストフィードバック

  • 内部テストでは、曖昧な問題への対処能力と複雑なバグ解決能力 が向上したと報告
  • 複数企業の初期ユーザーが次のようなフィードバックを提供
    • コード品質の向上トークン使用量の半減
    • マルチステップ推論長期の自律作業エージェントワークフロー で優れた性能
    • Sonnet 4.5比で15%以上改善した効率性
    • 自己改善型AIエージェントの実装 の可能性を確認
    • Excel自動化、3D可視化、コードレビュー、ストーリー生成 など多様な領域で性能向上
    • ツール呼び出しエラーとビルドエラーを50〜75%削減速度改善 を報告

性能評価

  • Anthropicの内部 ソフトウェアエンジニアリング試験人間候補者の最高スコアを上回る
    • 2時間制限内で最高成績を記録
  • ビジョン、推論、数学能力 が全般的に向上し、多数のベンチマークで 最先端水準(SOTA) を達成
  • τ2-bench テストでは創造的な問題解決の事例を提示
    • 航空券の変更不可ポリシーを回避せず、合法的な手続き(座席アップグレード後の日程変更) で解決
    • ベンチマーク上は失敗と記録されたが、創造的推論能力 の例として言及

安全性とアラインメントの向上

  • Claude Opus 4.5 は、Anthropicが公開したモデルの中で 最も強くアラインされたモデル
    • プロンプトインジェクション攻撃 に対する耐性は業界最高水準
    • Gray Swan が開発した強力な攻撃ベンチマークでも優れた結果
  • 「懸念される行動(concerning behavior)」スコアが低く、悪用や自律的な誤作動 の可能性を低減
  • 詳細な安全性と性能評価は Claude Opus 4.5 システムカード に収録

Claude Developer Platform アップデート

  • Opus 4.5 は 少ないトークンでより良い結果 を導出
  • 新しい effort パラメータ により、速度・コスト・性能のバランス調整が可能
    • 中間 effort 水準では Sonnet 4.5 と同等性能で、出力トークンを76%削減
    • 最高 effort 水準では Sonnet 4.5 比で 4.3%性能向上48%トークン削減
  • effort controlcontext compaction高度なツール利用 機能により長期作業の効率が向上
  • コンテキスト管理とメモリ機能 により、エージェント作業性能が15%向上
  • プラットフォームは徐々に モジュール化・組み合わせ型の構造 へ進化中

製品アップデート

  • Claude Code は Opus 4.5 ベースとなり、Plan Mode の精度と実行力が向上
    • 実行前に plan.md ファイル を生成し、ユーザーが確認可能
    • デスクトップアプリ で複数セッションの並列実行をサポート
  • Claudeアプリ は長い対話の自動要約機能で コンテキストを維持
  • Claude for Chrome はすべての Max ユーザーに提供
  • Claude for Excel は Max、Team、Enterprise ユーザー向けにベータを拡大
  • Opus 4.5専用の利用上限 を引き上げ、日常業務で活用可能に

追加情報

  • すべての評価(evals)は 64K thinking budget200K コンテキストウィンドウデフォルト effort(high) 設定で5回平均を実施
  • SWE-bench Verified、Terminal Bench など一部テストは別設定を使用
  • 関連研究と詳細結果は Claude Opus 4.5 システムカード で確認可能

関連ニュース

  • Claude、Microsoft Foundry および Microsoft 365 Copilot に統合
  • Microsoft・NVIDIA・Anthropic が戦略的パートナーシップを締結
    • Anthropic は Azure コンピューティング容量として300億ドル規模を購入、さらに最大1GWの追加契約を計画
  • ルワンダ政府および ALX と協力 し、アフリカ地域でのAI教育を拡大

2件のコメント

 
kaydash 2025-11-27

5Gの通信料に、Netflixもサブスクしなきゃいけないのに、AIまでサブスクしなきゃならないなんて(涙)

 
GN⁺ 2025-11-25
Hacker Newsの反応
  • 今回の発表で核心となるのは Opus 4.5の値下げ
    $5/$25 per MTok は Opus 4 と比べて3分の1の水準で、もはや「重要な仕事にだけ使うモデル」ではなく、実際の本番ワークロードに投入できるモデルになった
    また プロンプトインジェクション耐性 が SOTA 級だと主張しているが、もしシステムカードの数値が攻撃的なテストでも維持されるなら、これはツールへのアクセス権限を持つエージェントの導入者にとって大きな意味がある
    ただし「最もアラインされたモデル」という表現はやや大げさに感じられ、サードパーティのレッドチーム結果が気になる

    • Opus 4.5のリリースで Claude Code の利用制限 が緩和された
      Opus 専用キャップが撤廃され、Max および Team Premium ユーザーも Sonnet 時代と同程度のトークンを使えるようになった
      日常業務で Opus 4.5 を活用できるよう、利用上限を調整したとのこと
    • 内部テストの結果、Opus 4.5 は Sonnet よりも安く運用できるケースが多かった
      Amp チームの平均スレッド単価は Sonnet 4.5 が $1.83、Opus 4.5 が $1.30 程度だった
      単純なトークン単価よりも、知能向上によるエラー減少のほうが大きなコスト削減要因だった
    • 3倍の値下げは、おそらく Opus 4.5 が より小さく特化したベースモデルである可能性が高い
      ベンチマーク向けのファインチューニングが強化されたようで、eqbench.com のような非ターゲットテストでの性能が気になる
    • 以前は “Safety” セクションをSFめいた警告程度に見ていたが、今回は プロンプトインジェクションのような現実的な問題を扱っていて興味深かった
      もはや「安全性」という言葉そのものが別の意味へ進化しているように思える
    • ただし Pliney the Liberator がすでに脱獄(jailbreak)に成功したという
      これはプロンプトインジェクション耐性とは別問題かもしれない
  • 今回のモデルは 2〜4週間は革新的だろうが、その後「ナーフ」が来そう
    その後の数か月、性能低下を指摘する人たちは「実力不足」のせいにされ、エンジニアが「いくつかのバグ」を発見したと発表したあとで Opus 4.7 が出るだろう
    もう自分の忠誠心は ナーフ周期単位で測られている

    • 実際の性能低下ではなく 認知的な錯覚である可能性もある
      ベンチマーク上では性能低下の証拠がないからだ
      もし人間が感じる低下が本物なら、それは ベンチマークでは捉えられない要因(x-factor) が存在することを示唆する
    • だから自分は Gemini に移行した
      v2.5 世代以降は性能低下がなく、Anthropic はもしかすると 量子化モデルへの差し替えをしているのではないかと疑っている
    • 冗談のようだが、実際には Opus 4.0の再リリースなのかもしれない
    • こうした現象は CEO の行動パターンとも一致する
    • Claude はおそらく コンテキスト圧縮の実験をこっそり進めているようだ
      文脈依存度の低い単発の問い合わせでは、性能低下が比較的少ない
  • Gemini 3 Pro を Cursor で使ってみたが、Sonnet 4.5 よりかなり弱い
    Claude Code でしか解けなかった問題もあり、Sonnet 4.5 は Cursor 内でも特によく動く
    Anthropic が ソフトウェアエンジニアリング中心の戦略を取ったのは正しい判断だと思う
    2026年に向けて最も期待しているモデルだ

    • Claude モデルには str_replace_editor のような 内蔵ツールがある
      Cursor にはこうしたツールがないため、性能差が出る
      関連ツイートは こちら を参照
    • 自分のワークフローは Gemini で設計し、Sonnet で実装する形だった
    • 個人的には Gemini への過剰なハイプが理解できない
      Opus/Sonnet/GPT のほうが エージェント型ワークフローにはるかに適している
    • Gemini 2.5 Pro API でサイドプロジェクトを作ったが、命令実行の一貫性リソース超過エラーが問題だった
      Azure GPT-4.1、Bedrock Sonnet 4、Perplexity のほうがずっと安定していた
      他の人の経験も気になる
    • Sonnet 4.5 に base64 エンコードされた PHP serialize() JSON を渡して URL 抽出をさせたところ、Rick Astley の YouTube リンクを返してきた
  • Claude Opus 4.5 システムカード はマーケティングブログよりはるかに詳細だ
    150ページの PDF で、欺瞞(deception) に関するセクションが特に興味深い
    たとえば Anthropic の安全チーム解体のニュースを入力されても、その情報をユーザーに隠す事例がある
    CBRN 関連のリスクも扱っており、Opus はまだ ASL-3 水準なので大規模な危険ではない
    これに関するブログのまとめを ここ に投稿した

  • 今回のベンチマーク結果は本当にうれしい
    おかげで 既存の Coding Agent を維持できるようになった
    変化の速い AI 環境で FOMO なしに追い続けるのがますます難しくなっていたが、今回は Anthropic が再び競争力を証明した

    • もう ハイプを無視しても出遅れない時点に達したように思う
      Sonnet と Claude Code の組み合わせで十分安定しており、4.5 以降は自動的にさらに良くなった
      Codex に乗り換えろという誘惑はそのまま無視している
    • 自分は 料金制限 のせいで OpenAI に移った
      Claude が少し良いコードを生成するとしても、GPT は リクエスト無制限なので試行の自由度が高い
    • 複数のツールを併用しても、生産性の面では大きな得はない
      Opus は意味のある前進だが、根本的なワークフロー変化ではないだろう
    • 自分も Anthropic の開発者フレンドリーな方向性が好きだ
      競争の中でもしっかり踏ん張ってほしい
    • Codex も使ってみたが、結局 Claude Code に戻った
      Codex は制限に引っかかったときだけ一時的に使っている
  • Opus 4.5 の 高度なツール機能が特に印象的だった
    Advanced Tool Use の文書によれば、ツール検索プログラム的な呼び出しin-context の例学習などが可能だという
    ツール定義だけで13万トークン使ったと聞いて驚いた
    パズルゲームのデモ動画も興味深かった

  • Simon Willison の Opus レビュー を読んだ

    • 段階的な進化は 大規模コードベースでは体感しにくい
      ほとんどの課題では、モデルより ツーリングの格差のほうが大きい
    • ターミナル出力を HTML に変換する ライブラリを自作したのか気になる
    • ひょっとすると ベンチマークデータに合わせてモデルを学習させているのではないかという疑問がある
    • Haiku の価格表記に誤りがある — $1/$5 が正しい
    • タイポ修正提案: There modelTheir model
  • ARC-AGI-2 リーダーボードを見ると、モデル間の コスト対性能比較が明確だ
    Opus 4.5 は Gemini 3 と比べて素晴らしい成績を見せており、Gemini 3 Deep Think は依然として1位だが、コストは30倍以上
    2024年12月に OpenAI が ARC-AGI-1 の人間性能を突破したときは 1タスクあたり $3,000 かかっていたが、今では 数ドル水準まで下がり、80倍の削減となっている
    リーダーボード関連ブログ を参照

    • ちなみに Gemini 3 Pro は ツール未使用、Deep Think は ツール使用版
      同じツールアクセス権を与えれば、両モデル間の差は小さくなる
  • 最近の LLM は 改善速度が鈍化しているように感じる
    精度向上はわずかだが、効率性の改善は大きいと思う

  • 最近 Sonnet 4.5 がバカになった気がする
    簡単な CSS すらまともに処理できなかった
    Opus が3倍安くなったのは良いが、Claude Code Pro サブスクリプションではまだ使えない
    /model opusplan コマンドで計画段階では Opus を使えるが、クレジットが消費される仕組みなので不透明だ
    簡単な CSS 修正に $0.95 かかり、高すぎる
    今後は手動で Opus と Sonnet を切り替えてみる予定だ

    • Sonnet 4.5 の品質は チェスエンジンのように探索の深さに比例しているようだ
      ピーク時間帯には性能低下が避けられないので、負荷シグナル機能があるとよい
    • ここ数日、確かに 知能が落ちた感じがある
      新モデル宣伝のために意図的に下げたのか、あるいは 無料クレジット配布で負荷が増えて量子化版を回しているのかもしれない
      Anthropic の 不透明さと不安定さが残念だ
    • おそらく トラフィック過負荷時には低価格モデルへフェイルオーバーしているのだろう
    • 金曜は特に 継続的にバカっぽい応答を見た
      単なる一時的な不具合だと思っていたが、何かが変わったように感じる