- Anthropicの最新AIモデルで、コーディング能力と長時間タスクの継続性が向上し、1Mトークンのコンテキストウィンドウをベータでサポート
- 主要ベンチマークで業界最高水準のスコアを記録し、GPT-5.2より約144 Eloポイント優位
- コードレビュー・デバッグ、大規模コードベース処理、財務分析・文書作成など、実務中心の作業で性能を強化
- Adaptive thinking、context compaction、effort調整などの開発者向け制御機能を追加し、長時間実行型エージェントの運用を容易化
- 安全性評価でもエラー・悪用・過剰拒否率が低い結果を示し、高性能と安全性を両立したモデルと評価
Claude Opus 4.6 の主な改善点
- Opus 4.6は前バージョンと比べて、計画能力、エージェントの持続性、コード品質管理が向上したモデル
- 大規模コードベースでより安定して動作し、自身のエラーを検出・修正する能力を強化
- 1Mトークンのコンテキストウィンドウ(ベータ)により、長文・複合タスクを処理可能
- 日常業務での実用性も拡大し、財務分析・リサーチ・文書・スプレッドシート・プレゼンテーション生成など幅広い作業に対応
- Cowork環境でマルチタスクを自律的に実行でき、ユーザーに代わって複合業務を処理
ベンチマークと性能評価
- Terminal-Bench 2.0で最高スコア、Humanity’s Last Examでもすべてのフロンティアモデル中トップ
- GDPval-AA評価でGPT-5.2より約144 Eloポイント、Opus 4.5より190ポイント高い性能
- BrowseCompテストでも最高性能を記録し、オンライン情報探索能力を強化
- MRCR v2 (1M variant) で76%のスコアを記録し、Sonnet 4.5の18.5%と比べて大幅に向上
- 長文コンテキストの維持力と情報追跡能力が改善され、context rot現象を緩和
初期利用体験とパートナーからのフィードバック
- 社内エンジニアリングテストで複雑な問題解決力と判断力が向上
- 難しい問題では深い思考を繰り返し、より良い結果を導出
- 単純な作業では過剰な思考で遅延する可能性があり、
/effortパラメータで調整可能
- 初期パートナーは、Opus 4.6が自律実行能力、複雑な要求処理、チーム協業支援で優れていると評価
- 大規模コードベース探索、並列サブタスク実行、ブロッカー特定などで高精度な性能
- 法務・金融・技術コンテンツ分析で高い精度(例: BigLaw Bench 90.2%)
- 実際のテストでは40件中38件のサイバーセキュリティ調査でOpus 4.5より優れた結果
- 数百万行のコード移行を半分の時間で完了した事例を報告
安全性とセキュリティの強化
- 自動化された行動監査で、欺瞞・迎合・悪用への協力といった非整合的行動の比率が低い
- **過剰拒否率(over-refusal)**が最も低いClaudeモデル
- ユーザー福祉、危険な要求の拒否、隠れた有害行動の検出など、新しい安全性評価を実施
- 解釈可能性研究を通じて、モデル内部の動作原因を分析し潜在的な問題を検出
- サイバーセキュリティ能力の強化に伴い、6種類の新たなセキュリティプローブを導入し、悪用検出を強化
- 防御的活用として、オープンソースの脆弱性検出・パッチ適用を支援し、今後はリアルタイムの悪用遮断を計画
製品およびAPIアップデート
- Claude Developer Platformで以下の機能を追加
- Adaptive thinking: モデルが状況に応じて深い思考を行うか自動で判断
- Effortレベル: low、medium、high(デフォルト)、maxの4段階を提供
- Context compaction(ベータ) : 会話が長くなった際に古いコンテキストを要約・置換
- 1Mトークンコンテキスト(ベータ)および128k出力トークンをサポート
- US-only inferenceオプションを提供(1.1倍料金)
- Claude Codeにagent teams機能を追加し、複数エージェントが並列で協業可能
- Claude in Excelは、非構造化データの構造化や多段階変更処理の能力を向上
- Claude in PowerPoint(リサーチプレビュー)は、スライドテンプレート・フォント・レイアウトを認識し、ブランドの一貫性を維持
提供状況と価格
- Opus 4.6はclaude.ai、API、主要クラウドプラットフォームですぐに利用可能
- APIモデル名は
claude-opus-4-6、価格は**$5/$25 per million tokens**で従来と同じ
- 200kトークン超のプロンプトにはプレミアム料金($10/$37.50 per million tokens)を適用
結論
- Claude Opus 4.6は、長期コンテキスト処理、自律的なエージェント作業、高度な推論能力において大きな飛躍を遂げた
- 性能・安全性・開発者制御性をすべて強化したモデルとして、実務向けAIツールの新たな基準を提示
9件のコメント
Maxを使っているけど、なんだかトークンをたくさん使うほど得した気分になる……使わないともったいない……
ネットで出回っていた値下げの話は適用されなかったようですね(泣)
加入者は上限到達がものすごい速さで来るという書き込みがRedditに続々と上がっていますね。
やっている仕事もあるので、そのまま4.5を使い続けています
期間限定で50ドル相当の追加利用クレジットをくれるそうですね。笑
APIの価格が下がれば自然と週間上限も上がるだろうと期待していたのですが、残念です… 200ドルプランの週間上限にはあまり余裕がないので…。
うっ、高すぎますね…。Anthropicはトークンをばらまいてくれ…!!
おお、ついに~~~~
Sonnet 5を期待していたのに、Opus 4.6だったんですね(笑)
Hacker Newsの意見
自転車のフレームは少しゆがんでいるが、ペリカン自体は素晴らしい
絵はここで見られる
generateのような単語選びがモデルの結果に影響するのか気になるペリカンの両脚が同じ側にあることにはすぐ気づいたが、実際にはそうではないことを Wikipedia で確認した
プロンプトを繰り返し修正して、より現実的な結果を得られるかも実験したのか気になる
フレーム構造や幾何学的比率をよく間違える
リンク
GPT‑5.3 Codex が Terminal Bench で 77.3% と圧倒的な性能を示した
わずか35分で記録が破られたのは驚きだ
もしかすると発売直後は最高性能で動かし、その後はコスト削減のために落としているのではないかと気になる
実際に使ってみてから意見を共有したい
もしかすると、もうベンチマークは飽和状態に達しているのではないかと思う
Claude Code のリリースノート要約
Opus 4.6 の追加、multi-agent 協業機能、自動メモリ記録、部分会話要約、VSCode 改善など、さまざまな更新が含まれている
メモリ機能ドキュメント を見ると、Google Antigravity の Knowledge アーティファクト に近い概念のようだ
議論では2つのことが混同されていると思う
1つ目はトークン単価ベースの収益性、2つ目はモデルのライフサイクル経済学だ
推論単価は利益が出ていても、モデル全体のプログラムとしては依然赤字である可能性がある
本当の問いは「モデルがどれだけ長く競争力を保てば経済的に成立するのか」だ
最高でなくても十分に良く、乗り換えコストが高ければ市場を支配できる
初期には損を受け入れてでも、特定のドメイン(例: コーディング) を中心に市場を押さえるのは合理的かもしれない
ただし使用量が20倍増えるプランは持続可能性に疑問がある
今のvibe-coding ルネサンスがこうしたコスト構造で維持できるのかは分からない
年単位の損益で見るのは AI 企業の性質上あまり適切ではない
これが現在のエージェント型コーディングブームを支えている
おそらく多少は補助されているが、長期的には2倍程度に値上がりする可能性がある
1M コンテキストウィンドウが追加されたのはとてつもないアップグレードで、とても満足している
Anthropic の戦略はいまだによく分からない
大衆市場を狙うようなマーケティングをしているが、実際の強みはコーディング中心だ
一般的な調査や情報探索では ChatGPT や Gemini のほうがずっと深く、表現も良い
「憲法」や「人権」といった人間性マーケティングをしているが、むしろ最も取引的に感じられる
それでもコーディング用としては素晴らしいので、引き続き有料で使っている
技術系でない友人たちも ChatGPT から Claude に移り、また戻ったケースは見ていない
8か月前までは API でしか実用的でなかったが、今はずっと良くなっている
私はチェコ語話者だが、Claude は単語をでっち上げ、Grok はロシア語で返答することさえある
コーディングには良いが、一般会話用としては使えない
エージェント型タスクやツール使用には向いているが、日常的な質問には使わない
Opus 4.6 がインストール時に表示されなかったが、インストールコマンドを再実行したら現れた(v2.1.32)
インストールガイド
AI/LLM の運用コストが実際に下がっているのか気になる
「エージェントチーム」という概念は格好いいが、複数モデルを同時に回すとコストがかさみ、現実的には難しいと感じる
OpenAI はエンジニアリング最適化によって o3 の価格を 1/5 に下げ、他社も同様の削減効果を得ている
以前の「すべてのリクエストで赤字になる」という話は事実ではない
会社全体としては R&D や訓練費で赤字でも、API 利用自体は利益になっている
DeepSeek のようなオープンモデルでも、ずっと低価格で収益を出している
たとえば Claude 4(約400Bパラメータ)は DeepSeek V3(680B)よりはるかに高い
Claude は入力 $1/M、出力 $5/M に対し、DeepSeek は入力 $0.4/M、出力 $1.2/M
この差は Anthropic が訓練費を回収しなければならないからだ
DeepSeek 価格、Claude 価格
単純に推論収益だけを見れば利益だが、全体コストで見ればそうでない可能性もある
コーディング補助として使っているが、しばしば軌道修正が必要だ
それでも熟練人材を雇うよりはるかに安い
We build Claude with Claude という文句はかなり興味深い
60日間非アクティブだと自動整理されるのに、それでも増え続けている
その文句は偏見を示している以外には大きな意味はない
自分で使うことが最高の品質改善方法だ
今のようにラッパーが急増している理由でもあり、いつかセキュリティ事故が起きそうだ
Opus 4.6 を試してもらうために50ドル分のクレジットを追加提供している
使用量ページからすぐ受け取れる
おそらくトークン使用量の増加を見込んでいるか、モデルの宣伝目的だろう