- コード作成、コンピュータ操作、長期推論、エージェント計画、知識労働、デザインなど全領域で性能が向上したAnthropicの最新Sonnetモデル
- 1Mトークンのコンテキストウィンドウをサポートし、Sonnet 4.5と比べて一貫性・命令遂行・コード品質が大幅に改善
- Opus 4.5級の知能をより低コストで提供し、実務・文書理解・フロントエンド設計などで人間レベルの結果を示す
- OSWorldベンチマークでコンピュータ操作能力が継続的に向上し、プロンプトインジェクション耐性も強化
- 開発者と企業が高コストモデルなしでもフロンティア級の推論とコード品質を活用できるようになった点が中核
Claude Sonnet 4.6概要
- Sonnet 4.6はAnthropicの最も強力なSonnetシリーズモデルであり、コーディング・コンピュータ操作・長期推論・知識労働・デザインなど全般的な能力をアップグレード
- **1Mトークンのコンテキストウィンドウ(ベータ)**をサポートし、大規模コードベースや長い文書を一度に処理可能
- FreeおよびPro料金プランのユーザーにデフォルトモデルとして適用され、価格はSonnet 4.5と同じく100万トークンあたり$3/$15を維持
- 初期ユーザーはSonnet 4.6をSonnet 4.5より圧倒的に好み、一部はOpus 4.5よりも好む
- 安全性評価の結果、従来モデルより安全、または同等水準であり、「温かく正直で向社会的な性格」を示したと評価
コンピュータ操作能力
- Sonnet 4.6は人のようにコンピュータを操作できるモデルへと進化
- Chrome、LibreOffice、VS Codeなど実際のソフトウェアを仮想環境で操作し、OSWorldベンチマークで評価
- 16か月にわたる継続的な性能向上により、複雑なスプレッドシートの探索や多段階ウェブフォームの作成などで人間レベルの能力を確認
- 依然として最高熟練の人間には及ばないが、作業効率の向上速度は非常に速い
- プロンプトインジェクション攻撃に対する防御力がSonnet 4.5より大幅に改善され、Opus 4.6と類似した水準の安全性を確保
性能評価とベンチマーク
- Sonnet 4.6はOpus級の知能をより低コストで提供し、さまざまなベンチマークで全般的に向上
- Claude Codeテストではユーザーの70%がSonnet 4.6を選好し、コード修正時の文脈理解と重複最小化能力が向上
- Opus 4.5比で59%の選好、過剰設計や怠慢傾向が減少し、命令遂行の正確性が向上
- Vending-Bench Arenaでは長期経営シミュレーションの実行中、初期投資後に後半収益へ集中する戦略で競合モデルを上回る
- OfficeQAでOpus 4.6と同等の文書理解力、Financial Services Benchmarkで回答一致率が上昇
- 保険ベンチマークで94%の正確度、Boxテストで15%向上した深い推論性能を記録
- Rakuten AIテストで最高水準のiOSコード生成、現代的ツーリング活用およびアーキテクチャ品質が改善
製品およびプラットフォーム更新
- Claude Developer Platformでadaptive thinking、extended thinking、**context compaction(ベータ)**をサポート
- APIツール更新:
- web searchとfetchが自動でコードを作成・実行し、検索結果をフィルタリング
- code execution、memory、programmatic tool calling、tool searchなどの機能を一般提供
- Claude in ExcelアドインでMCPコネクタをサポートし、S&P Global・LSEG・PitchBookなど外部データと連携可能
- Sonnet 4.6はextended thinkingなしでも高い性能を維持し、Sonnet 4.5ユーザーには移行を推奨
- Opus 4.6は引き続き、最も深い推論が必要な作業(コードリファクタリング、マルチエージェント調整など)に適する
利用可能な経路
- Sonnet 4.6はすべてのClaude料金プラン、Claude Cowork、Claude Code、API、主要クラウドプラットフォームで利用可能
- 無料プランもSonnet 4.6にアップグレードされ、ファイル作成・コネクタ・スキル・コンパクション機能を含む
- 開発者は
claude-sonnet-4-6モデル名を通じてClaude APIですぐに利用可能
主な数値と評価指標(脚注要約)
- OSWorld: 実際のソフトウェアベースのコンピュータ作業評価で、Sonnet 4.6は「thinking off」状態で測定
- SWE-bench Verified: 10回平均80.2%のスコア
- ARC-AGI-2: 最大努力モードで60.4%を達成
- MMMU-Pro: 評価方式改善後にスコアを調整
- Humanity’s Last Exam、BrowseCompなどさまざまな実験でツール使用・ウェブ検索・コンテキスト圧縮機能を有効化した状態でテストを実施
1件のコメント
Hacker Newsの反応
コンピュータ利用に焦点を当てている点が印象的。それだけ価値が大きいと判断しているのだろう。ただし安全性については依然として疑問が残る。彼らの自己評価によれば、自動攻撃システムが8%の確率で単一試行による侵入に成功し、無制限に試行した場合は50%まで成功したという。この数値は受け入れがたい。何か自分の理解が間違っているのでなければ、これは実運用不可能なレベルだ
安全性評価PDF
個人の詩集約900編をSonnet 4.6に入れてテストしたが、Opus 4.6と比べると大きな差がある。Opus 4.6は驚くべき分析を見せたが、Sonnet 4.6は依然として幻覚と誤りが多い。コーディングテストでも似た印象だった。Opusと比べるとかなり物足りない
Sonnet 4.6は依然として**「洗車場問題」**を間違える。元の質問をそのまま入力したところ、「歩いて行け」と答えた。いくつか変形も試したが、似たような失敗を見せた
「競争は消費者にとって良い」という言葉を実感する。市場競争が激しいほど成果物は良くなる
「ヘリコプター洗車場」テストが最高だった。Sonnet 4.6は「歩いて行け」と答えたが、アメリカ人の短距離運転習慣を風刺したような回答で面白かった
Sonnet 4.6がOpus 4.5レベルの性能だという点に驚いた。進歩の速度は1990年代のコンピューティング性能向上のペースを思い起こさせる
Sonnet 4.5の価格は$3/$15 per million tokensだが、この価格を受け入れる人がどれだけいるのか疑問だ。オープンウェイトモデルが急速に追いついており、はるかに安い
Opus/Sonnet 4.6対応をllm.datasette.ioプラグインに追加していたせいで、ペリカン画像を作るのが遅れた。出来上がりはOpus 4.5レベルで、立派なシルクハットをかぶったバージョンだった
関連ブログ
ここ数日Sonnet 4.5でテストしていたが、会話が不思議なほど興味深く一貫性があった。
個人設定で「客観的事実と批判的分析を優先し、感情的共感は禁止」と入れたところ、本当によく従った。ChatGPTも似たように反応する
複数のユーザーが、Opus 4.6は4.5よりトークンを5〜10倍多く消費すると報告している。Issueリンク。公式回答はまだない。なので4.5を使い続けるつもりだ
/modelsでreasoning levelを確認できる。highに設定するとトークン使用量が急増する