Claude Opus 4.7
(anthropic.com)- 高度なソフトウェアエンジニアリング性能が強化され、複雑で長時間にわたる作業を高い一貫性と精度で処理
- 視覚認識とマルチモーダル理解力が向上し、高解像度画像、技術ダイアグラム、化学構造など複雑な視覚情報を分析可能
- サイバーセキュリティ保護機構を内蔵し、高リスクな要求を自動検知・遮断、正当なセキュリティ研究者はCyber Verification Programに参加可能
- Effort制御、Task Budget、
/ultrareviewコマンドなどの新機能により、長期作業の効率とコード品質検証能力を改善 - Opus 4.6比で13%の性能向上と高い信頼性を達成し、Anthropicはこれを基盤にMythos級モデルの安全な公開を準備中
Claude Opus 4.7 概要
- Claude Opus 4.7は、Opus 4.6比で高度なソフトウェアエンジニアリング性能が大幅に向上したモデルで、複雑かつ長時間実行される作業を高い一貫性と精度で処理
- ユーザーは従来よりも難易度の高いコーディング作業を信頼して委任でき、モデルは自己検証後に結果を報告
- 視覚認識能力が強化され、高解像度画像、インターフェース、スライド、文書などで高品質かつ創造的な能力を発揮
- AnthropicのClaude Mythos Previewと比べると汎用能力は低いものの、各種ベンチマークでOpus 4.6を上回る結果を記録
- すべてのClaude製品群とAPI、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで利用可能で、価格はOpus 4.6と同一
サイバーセキュリティ関連の措置
- AnthropicはProject Glasswingを通じてAIのサイバーセキュリティ上のリスクと利点を公開し、Mythos Previewの公開を制限しつつ、セキュリティ実験はまずより強力でないモデルで実施する方針を示した
- Opus 4.7はその最初のモデルであり、禁止または高リスクなサイバーセキュリティ要求を自動で検知・遮断する保護機構を含む
- 実際の配備データを基に、今後Mythos級モデルの広範な公開を準備中
- 正当なセキュリティ研究者(脆弱性分析、ペネトレーションテスト、レッドチームなど)はCyber Verification Programに参加可能
主な性能とユーザーフィードバック
- 初期テストでは、論理エラーを自ら検知し、実行速度を高める能力が確認された
- 非同期ワークフロー、CI/CD、長時間の自動化作業で卓越した性能を示し、単なる同意ではなく深い問題へのアプローチと意見提示を行う
- データ欠損時に誤った推論を避け、不整合データの罠に陥らない
- 93件のコーディングベンチマークでOpus 4.6比13%向上、これまで解決不可能だった課題をさらに4件解決
- マルチステップ作業の効率性で最高水準の一貫性を示し、金融モジュールでは0.813でOpus 4.6(0.767)を上回った
- マルチモーダル理解力が向上し、化学構造や複雑な技術ダイアグラムの解釈能力が改善
- 自律的な長期作業遂行能力が強化され、数時間にわたり一貫した問題解決が可能
- Replit、Harvey、Hex、Notion、Databricks、Vercelなど複数企業が、コード品質、ツール呼び出し精度、長期ワークフロー信頼性の向上を報告
- 実例として、Rustベースの音声合成エンジンを完全自律で開発し、Python参照モデルとの一致も自己検証した
初期テストの主な改善点
-
命令解釈の正確性
- Opus 4.7は指示文を文字どおりに解釈し、従来モデルよりはるかに厳密に従う
- 既存プロンプトが予期しない結果を生む可能性があり、プロンプトの再調整が必要
-
マルチモーダル対応の強化
- **最大2,576ピクセル(約3.75MP)**解像度の画像を処理可能
- 複雑なダイアグラム分析、スクリーンショットベースのデータ抽出など、精細な視覚情報を活用する作業に適する
-
実務性能
- 金融分析、プレゼンテーション、モデリングなどでOpus 4.6より高い専門性と一貫性を確保
- GDPval-AA外部評価でも金融・法務など知識労働分野で最高水準を記録
-
メモリ活用
- ファイルシステムベースのメモリを効率的に使用し、複数セッションにまたがる作業コンテキストを記憶・再利用
安全性とアラインメント評価
- 全体としてOpus 4.6と類似した安全性プロファイルを示し、欺瞞・追従・誤用への協力などの問題発生率は低い
- 誠実性、悪意あるプロンプトインジェクション耐性は改善した一方、一部領域(例:薬物関連の過度な助言)ではやや弱化
- 評価結果は「概ね適切にアラインされ信頼できるが、完全に理想的ではない」と結論づけられた
- Mythos Previewは依然として最もよくアラインされたモデルと評価される
追加リリース機能
-
Effort制御の強化
highとmaxの間に新たな**xhighレベル**を追加し、推論能力とレイテンシの細かな調整が可能- Claude CodeではデフォルトのEffortレベルを
xhighへ引き上げ
-
Claude Platform(API)
- 高解像度画像対応とともにTask Budget機能を公開ベータとして提供し、長期作業でトークン使用の優先順位を調整可能
-
Claude Code
- 新しい
/ultrareviewコマンドでコード変更のレビューとバグ検出セッションを実行 - ProおよびMaxユーザーに3回の無料ultrareviewを提供
- Auto ModeをMaxユーザーに拡張し、長期作業中の承認手順を減らして中断なく実行可能
- 新しい
Opus 4.6から4.7への移行
- Opus 4.7は直接アップグレード可能だが、トークン使用量の変化には注意が必要
- 新しいトークナイザーにより、同一入力が約1.0〜1.35倍多いトークンへ変換される可能性がある
- 高いEffortレベルではより多くの推論を行うため、出力トークン増加の可能性あり
- Effortパラメータ、Task Budget、簡潔なプロンプト設計によってトークン使用を制御可能
- 内部テストでは、Effortレベル全般で効率性の改善が確認された
- 詳細なアップグレード方法はMigration Guideで提供される
1件のコメント
Hacker Newsの反応
新しく導入された adaptive thinking という概念がとても分かりにくい
これまでは thinking budget / effort モードでコードを書いてきたのに、今は完全に違う動きをする
公式ドキュメントを見ても、まだしっくりこない
しかも 4.7 ではデフォルトで人間が読める reasoning の要約が出力されない。
"display": "summarized"オプションを自分で追加しないといけない今 Pelican プロジェクトを動かしているが、新しい thinking の方式のせいで何度も詰まっている
関連スレッドを参照
adaptive thinking を無効にして effort を上げたら、以前のレベルに戻った
ただ、「内部評価ではうまくいく」という話だけでは不十分だ。同じ問題を報告しているユーザーが大勢いる
スクリーンショット
--thinking-display summarizedという非公式のコマンドラインオプションが追加されたようだVS Code ユーザーは
exec "$@" --thinking-display summarizedを含むラッパースクリプトを作ってclaudeCode.claudeProcessWrapper設定に入れれば、reasoning の要約を再び見られる以前は LLM の CoT(Chain of Thought)を公開することが安全性の中核だと考えられていたが、方向性が変わったようだ
Opus 4.7 の新しいトークナイザーはテキスト処理効率を高めるが、入力は 1.0〜1.35 倍多いトークンにマッピングされる
そのため、自分は caveman プロジェクトの出力のほうがむしろ読みやすいと感じる
caveman リポジトリ
コンテキストの大半がファイル読み込みと reasoning に使われるので、実際のトークン削減効果は 1% にもならない。むしろモデルを混乱させる可能性もある
mac app、CLI 版
よくある単語はノイズかもしれないと思ったが、結果の差はほとんどなかった
caveman と比較実験をしてみたい
reasoning トークンの使用量が減ったおかげだ。もはやトークン単価だけでモデルのコストを比較するのは意味がないことを示している
Anthropic が Opus 4.7 を サイバーセキュリティ制限モデル として公開したという発表を見て、これは失敗する戦略だと感じた
セキュリティ知識を検閲しながら同時に安全なソフトウェアを開発しようというのは矛盾している
すべての AI 企業が同じ方針を取らない限り実効性もない。結局このアプローチは放棄される気がする
だがこうした制限はセキュリティを中央集権化する方向であり、本当の意味での安全性向上とは言いがたい
まるで面接でホワイトボードの前に立たされると IQ が 10% 下がるように、モデルも萎縮してしまう
だから「選択的に馬鹿にする」方向へ進んでいるように見える。すでにその実験をしているのかもしれない
攻撃者は一度成功すればよいが、防御側は毎回成功しなければならない という点で時間を稼げる
先週 4.6 の品質低下のせいで、結局 Codex に移った
4.6 はウェブ検索もしないまま 17K トークンをたわごとで埋め、並列処理の例も完全に間違って実装した
トークン使用量が突然急増し、サポートチームの無関心な対応 が決定打だった
バグは理解できるが、顧客への態度は容認しがたい
Codex に移ってからは少なくとも 仕事が進む。それだけで十分だ
Codex は利用上限を 2 倍に増やして Claude の顧客を取り込み中で、PR もはるかに良い
Claude の問題の 90% はコンピュート不足に見える
AI は常に「進歩している」ように見えなければならず、停滞はすなわち hype の死だからだ
速くても、質の低いコード をより速く出すだけなら意味がない
Gemini CLI はさらに遅く、品質も低かった
Codex はバグがあっても「完璧です」とおべっかを使う傾向があり危険だ
実行力 が高く、OpenAI はマーケティングなしで結果で語っている
まるで初期の Google のように、製品品質で勝負している感じだ
Opus 4.7 の サイバーセキュリティフィルター が強すぎて、合法的な研究まで妨げられる
プログラムのガイドラインをウェブからそのまま取ってきても「危険な要求」として遮断される
この状態なら Codex に移る予定だ
公式案内のように、一部機能へのアクセス時に認証手続きが必要になる
そのせいで進行中の研究がすべて止まっている
おそらくモデルが自前の reasoning の途中で「攻撃的」に見える段階を検出したのだろう
バグハンティングがだんだん攻撃的な段階に入るとフィルターが動くようだ
今や ポリシー違反が新しい segfault になった世界だ
特定の単語が入っているだけで過敏に反応する
もはや自分のプロジェクトが悪意あるものかどうかを AI に許可してもらうようなものだ。解約するつもりだ
このスレッドは創業者にとって良い教訓だ
少し誠実にコミュニケーションするだけで どれほど多くの不満を和らげられるかを示している
Opus 4.5 にアプリを固定している立場としては、今はモデルの問題なのかハーネスの問題なのかすら判別しづらい
たまには単に運が悪いだけということもある
そうすれば自分は勤務時間を調整して、夜に重い作業を回せる
こういう混乱の中では モデルブローカー や Copilot のような中間レイヤー を使うのが賢明だと思う
「標準 AI」のように常に同じモデルを提供するサービスが必要だと感じる
うちのチームの 社内ベンチマーク では、Opus 4.7 は 4.6 / 4.5 より戦略的で知的だった
GPT-5.4 とほぼ同格で、ツールを使うエージェント的セッションではむしろ最高性能を見せた
ベンチマークリンク
ただしコンテキスト処理にはやや後退がある。これを可視化するベンチマークを追加中だ
最近 Anthropic への 信頼が落ちている
4.6 のダウングレード直後に 4.7 を出してきたのが不安だ
今こそ 透明なコミュニケーション が必要だ
OpenAI は早い段階からコンピュートに投資していて、今ではそれが大きな利点になっている
Mythos を Opus 4.7 に 蒸留(distillation) しているのかもしれない
おそらくハーネスの更新が原因だろう
最近「Codex に乗り換えた」というコメントが急増している
だが実際に使ってみると、Codex はまだ Claude の水準に達していない
こうした宣伝っぽいコメントは信頼を損なうだけだ
うちの会社でも両方のモデルを使っているが、自分はもうほとんど Codex しか使っていない
速度と結果がより良いと感じる
ただし応答品質は Claude のほうが良い。長所と短所がはっきりしている
ただし Codex は「技術的には正しいが人間的には妙な」結果を出す
なので自分は Claude で 仕様を書く だけ書いて、Codex に 実行 させる組み合わせを使っている
結局あとで値上げするのでは、という疑いだ
Opus 4.7 の セキュリティ制限ポリシー は致命的になりうる
攻撃を研究し、防御するには対称的な能力が必要なのに、それを妨げるのは危険だ