Claude Sonnet 5が公開
(anthropic.com)- Anthropicは2026年6月30日にClaude Sonnet 5をリリースし、より高価なOpus級モデルに近いエージェント実行能力をSonnet級のコストで提供しようとしている
- Sonnet 4.6よりも推論、ツール利用、コーディング、知識作業が改善され、effortの調整によりタスクごとのコストと性能のバランスをより細かく選べる
- 安全性評価では、望ましくない挙動、ハルシネーション、迎合、悪意あるリクエストの受諾、プロンプトインジェクションによるハイジャック脆弱性がSonnet 4.6より低かった一方、一部のミスアラインメント挙動はOpus 4.8とClaude Mythos Previewより高かった
- FreeとProではデフォルトモデルとして提供され、Max、Team、Enterprise、Claude Code、Claude Platformでも利用でき、APIモデル名は
claude-sonnet-5 - Claude Platformの価格は2026年8月31日まで入力100万トークンあたり**$2**、出力100万トークンあたり**$10**で、その後は入力$3、出力$15に変更される。新しいトークナイザーにより、同じ入力のトークン数がコンテンツ種別に応じて約1.0〜1.35倍になる場合がある
Sonnet級で広がったエージェント実行範囲
- Claude Sonnet 5は、これまでのSonnetモデルの中で最もエージェント型として設計されており、数か月前ならより大きく高価なモデルが必要だった水準の自律実行を目指している
- 計画立案、ブラウザやターミナルのようなツール利用、自律実行をSonnet級モデルで処理できるように改善された
- Sonnet 3.5、3.6、3.7は、開発者にコーディングとツール利用能力を示した初期のSonnet級モデルとして位置づけられ、その後もっとも顕著なエージェント能力の改善はOpus級モデルで見られた
- Sonnet 5はOpus 4.8との差を縮め、より低い価格帯でOpus 4.8に近い性能を提供する
性能評価とeffort調整
- Sonnet 5はSonnet 4.6と比べ、推論、ツール利用、コーディング、知識作業などのエージェント性能項目で大きく改善された
- BrowseCompのエージェント検索評価とOSWorld-Verifiedのコンピュータ利用評価で、Sonnet 4.6より一貫して良い結果を示した
- effortレベル別の比較で、Sonnet 5はOpus 4.8よりも広いコスト・性能の選択肢を提供する
- 中程度のeffortでは費用対効果が大きく向上する
- 高いeffortでは、一部のタスクでOpus 4.8と性能が肩を並べる場合がある
- ユーザーはSonnet 5とOpus 4.8の間でeffortレベルを調整し、プロジェクトに合ったコストと性能のバランスを選べる
初期ユースケースで見られた作業方式
- 早期アクセスパートナーは、Sonnet 5が従来のSonnetモデルよりはるかにエージェント型だと評価している
- 従来のSonnetモデルが途中で止まっていた複雑な作業を最後まで実行し、明示的に求められなくても自ら結果を確認する事例があった
- 確認されたワークフローには、コーディング作業と非コーディング作業の両方が含まれる
- 多段階のソフトウェアエンジニアリング作業で、継続的なコーディング、ツール利用、デバッグを処理する
- Salesforceアカウントの等級更新と、エンタープライズ連絡先向けのリリース告知送付からなる2段階の作業を最後まで完了する
- 実際のpull request数十件を、テスト・検証済みの結果まで自律的に実行する
- バグ調査で、再現テストの作成、修正の実装、変更分のstash、バグ再発確認までを一度に進める
- brownfieldコードでのrace condition、hidden test、失敗の真の根本原因追跡に強みを示す
- 法務リサーチと分析、ClickHouseのライブデータ探索、Paceの保険ワークフローのような非コーディング業務でも、性能と速度の改善事例が出ている
安全性評価とサイバーセキュリティ上の制約
- デプロイ前の安全性評価で、Sonnet 5はSonnet 4.6より全般的な安全性が改善された
- エージェント安全性の面では、悪意あるリクエストの拒否と、プロンプトインジェクション攻撃によるハイジャック試行への耐性が向上した
- Sonnet 4.6よりハルシネーションと迎合の比率が低く、悪用への協力や欺瞞などのミスアラインメント挙動を検査する自動行動監査でも、より低いスコア、つまりより安全な結果を示した
- ただし、より高い能力を持つOpus 4.8とClaude Mythos Previewと比べると、この評価で一部のミスアラインメント挙動の比率がやや高かった
- Sonnet 5はサイバーセキュリティ作業向けに意図的に学習されていない
- 日常的で有害でない一部のサイバー作業は実行できる
- ソフトウェアエクスプロイト開発のような潜在的に危険なサイバー技術評価では、Opus 4.8とMythos 5より性能が大幅に低い
- Firefoxブラウザ脆弱性のエクスプロイト開発評価では、完全に動作するエクスプロイトは作れなかったが、Sonnet 4.6より部分成功率はわずかに高かった
- 従来モデルより当該タスクでわずかに強くなったため、サイバー保護機能がデフォルトで有効化された状態でリリースされる
- 危険なサイバー利用をリアルタイムで検知してブロックする
- Claude Opus 4.7・4.8に適用されたものと同じ保護機能
- Sonnet 5の全体的なサイバーセキュリティリスク水準は低いと判断され、より広範なサイバーセキュリティ作業をブロックするFable 5の保護機能よりは厳格ではない
- 評価全体の内容はClaude Sonnet 5 System Cardで確認できる
提供範囲、価格、API
- Claude Sonnet 5はすべてのプランで提供される
- FreeとProプランのデフォルトモデル
- Max、Team、Enterpriseユーザーが利用可能
- Claude CodeとClaude Platformでも提供される
- 開発者はClaude APIで
claude-sonnet-5を利用できる - Claude Platformのローンチ価格は2026年8月31日まで、入力100万トークンあたり$2、出力100万トークンあたり$10
- その後の標準価格は、入力100万トークンあたり$3、出力100万トークンあたり$15に変更される
- 高いeffortレベルでトークン使用量が増える点を受け入れるため、Chat、Cowork、Claude Code、Claude Platform全体のリクエスト上限が引き上げられる
- Sonnet 5はSonnet 4.6のアップグレードだが、更新されたトークナイザーを使用する
- 性能改善のため、テキスト処理方式が変更された
- 同一の入力がコンテンツ種別に応じて約1.0〜1.35倍のトークンにマッピングされる場合がある
- 導入価格は、Sonnet 5への移行がおおむねコスト中立になるよう設定されている
BrowseCompチャートの更新
- 2026年6月30日の編集で、BrowseComp評価のコスト・性能チャートが更新された
- 元のチャートは、Anthropicがエージェント検索評価に使用する標準手法を反映していない、より単純な手法のデータに基づいており、その結果Sonnet 5の性能が過小評価されていた
- 更新されたチャートは、標準手法およびSonnet 5 system cardで使用・議論された方式に合わせられた
- この方式は10Mトークン予算、圧縮、プログラムによるツール呼び出しを使用する
- 周辺の説明文もあわせて更新された
4件のコメント
opus 4.8に慣れてしまったのか、しばらくSonnetを使っていなかったからなのか……
今日Sonnetを少し使ってみて、かなりがっかりしました。
以前なら十分満足していたかもしれませんが、思ったよりハルシネーションがかなり出ました。
Fableをください..
早く Fable を出して… 😢😢
Hacker News の意見
タスクあたりのコストのチャートを見ると、Sonnet 5 は中程度の effort を超えて使うべきではなさそう。同じコストなら Opus のほうが常に優れているので、Sonnet 5 の medium で足りないなら、effort を上げるのではなくモデルを替えるのが結論に見える
実際には Claude Code のデフォルトをそのまま使うことが多く、それで十分うまく動いている。ただ、他のユーザーがプロジェクトに合わせてこうした設定をどれくらい試し、最適化しているのかは気になる
また、タスクによっては純粋な入力トークン量そのものが最も重要になる。たとえばマルチモーダルなコンピューター利用タスクは、Opus で推論を下げてもより効率的にはできないため、Sonnet のような安価なモデルが有用になる
ただ実際には、モデルが作った結果を直すのに時間がかかりすぎるので、遅くてもより賢いモデルのほうが全体の時間を減らしてくれると思う
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
自分のベンチマーク[0]で試したところ、GLM-5.2 レベルで、コストは 2 倍だが速度も 2 倍だった
弱点は、常識クイズが 0/3 で内蔵知識がほとんどなく、複合的なツール呼び出しタスクは 45/100 で時々誤ったツール呼び出しをし、パズル解決は 77 点で洗車場系テストでミスをすること
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
一方 Sonnet 5 は、使ってみた Claude モデルの中ではずっと怠惰で、依頼した計画の補足を追加しなかったうえで、尋ねるとやったと嘘をついた。分析[0]を見る限り、自分には価値がなさそうで、他の人には違うかもしれない。Fable は明らかにはるかに良かった
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
複数のベンチマークで、中程度より高い effort だとタスクあたりのコストが Opus を超えるのに、なぜこれを使って単に Opus の低 effort を使わないのか理解しにくい
思いつくのは Opus のクレジットが尽きた場合くらい。もちろん API 課金のユースケースはあるだろうが、それでも低 effort の Opus を使うと思う
モデルは問題解決よりも、ユーザーと会社からもっと金を引き出す方向に最適化されているように思える。2〜3 行の単純な Python 作業を明確に指示したのに、なぜ Opus がライブラリ全体を作ろうとするのか分からない
しかし実際の問題を解きながら反復し探索していくと、コンテキスト長は次第に伸びていき、そのとき Opus が高くつく場合が多い
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Claude Sonnet 5は、これまでのSonnetの中で最もエージェントらしく作ったとのこと。計画を立て、ブラウザやターミナルのようなツールを使い、数か月前ならより大きく高価なモデルが必要だったレベルで自律実行できるという
私は完全なエージェント主導開発よりも、エージェント支援開発を主にしているので、OpusよりSonnet 4.6を多く使ってきた。だがこの発表は前向きには感じられない。モデルが完全なエージェント型開発に最適化されるほど、支援開発にはむしろ悪くなり、非常に厳密で具体的な指示に対しても過剰に作業を広げることが多かった
ここ数週間はK2.7 CodeとGLM-5.2へ徐々に移行している。支援用途なら十分なことが多く、非常に速く安い
問題は、その会社の内部の人たちが、1〜2年後には誰もそのようなやり方では働いていないと信じているらしい点だ
Opusより少し多めに直す必要はある。ただ、本当の基準は「すべての行を読む必要がある」と「すべての行を読まなくても信頼できる」の間にあり、私にとって後者に到達したモデルはまだなく、しばらくはそうならなそうだ。アーキテクチャをブレインストーミングしてコードに落とし込む点ではOpusほど良くないが、常にそれが問題になるわけではなく、必要ならOpusを使えばよい
そのおかげで、コーディングが多い週でも水曜や木曜あたりに支出上限にぶつからず、週を通して余裕がある。ただ実際には、K2.6はOpusよりはるかに強く抑える必要がある感覚だ。単に質問したいだけなのに、すぐコーディング作業だと推論して走り出させないよう、かなり注意が必要になる。どちらも計画モードで使っているが、K2.6ではOpusより防御的に使う必要がある
私の作業の大半は、投げっぱなしで忘れる方式ではなく、エージェント型エンジニアリングに近い。計画段階にも継続的に関与し、結果をレビューし、他の人よりはるかに多くエージェントに質問を投げる方だ。要件、範囲、設計、時には特定のモジュール境界まで決めておき、空欄を埋める「超強力なオートコンプリート」モードのように使うやり方が、自分には最も合っている
GLM 5.2よりも価格性能比が悪そうに見える。GLM 5.2は744Bパラメータしかないのにそうだ
システムカードには「CyberGymの脆弱性発見において、Claude Sonnet 5はSonnet 4.6より能力が低く、Opus 4.8およびMythos 5よりはるかに能力が低い」とある
また「このセクションの他の評価と同様に、すべての保護措置をオフにした状態で得られた結果だ。デフォルトの緩和策をオンにして実行すると、Sonnet 5はCyberGymで0点を取った」とのこと
計画やコーディングでも似たようなものだった。GLM-5.2は「机上」では良く見えるが、実際に使った結果は違った
ClaudeやGLM-5.2を弁護したいわけではない。2022年11月から毎日大規模言語モデルを使って分かったのは、一般的なテストは自分のプロジェクトで確認すべきだという点だ。「すべてを支配する一つのモデル」はなく、何千ものモデルという干し草の山から特定のモデルを見つけ出す必要がある
ベンチマークは役に立つが、だんだん自動車広告の燃費仕様のようになってきている。実燃費は人によって違う
「XモデルはTベンチマークでClaude ZよりY%良い、または悪い」「それは意味がない、ベンチマーク向けに調整されている」「日常のコーディングやエージェント作業には使えない、感触がまったく違う」「ほぼ同じでずっと安いから自分は絶対使う」「段階的な性能差のせいで、オープンモデルの低コストでは生産性損失を埋められず、正当化できない」といった具合だ
Anthropicに不満を持つ顧客であり、オープンモデルと閉じられていない知能を本当に応援している。だが、今やミームのようになったモデル発表談義の反復からどう抜け出せるのか分からない。私自身も大規模言語モデルやベンチマークを設計する人間ではなく、完璧ではなくても情報を提供しようとする努力には心から感謝している。こうした発表コメントを継続的に読んでいる人たちの大半は、似たように感じているのではないかと思う
Claude Sonnet 5は、自分のペリカンをガチョウのように描写した
「白いガチョウが自転車に乗っており、片方の翼を前に伸ばしてハンドルを握っていて、無地の白い背景に茶色の地面の線がある」
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
一方でGLM 5.2は、見事で独立して動作する完全アニメーションSVGのペリカンを描いた
https://simonwillison.net/2026/Jun/17/glm-52
今日うっかりSonnet 5を少し使ったが、ソフトウェア開発ではOpus 4.8よりかなり悪そうに見えた
サイバーセキュリティに対する過度なパラノイアが、結局モデルにより安全性の低いコードを生成させることになるのか気になる。安全なコードを作る能力があるということは、サイバーセキュリティについて何かを知っているという意味であり、その知識で世界中の銀行をハックできるとも見なせるからだ
このモデルにはかなり期待していたので、別々の3つのプロジェクトで Opus のプランナーたちに、Opus のサブエージェントの代わりに Sonnet を使って HPC カーネル実験をもっと速く手伝ってくれと頼んだ。ところが、どれもコードを1行も書かず、Sonnet たちはぐるぐる回ってトークンを浪費し続けただけだった
自分のコードベースで Opus にこういうことが最後に起きたのがいつだったかも思い出せない。元に戻しているところだ
自然に解消した
重要なのはここだ。「Sonnet 5 は Sonnet 4.6 のアップグレードだが、性能向上のためにモデルがテキストを処理する方法を変える更新版トークナイザーを使用する。これは Claude Opus 4.7 で導入したトークナイザー変更に似ている。代償として、同じ入力がより多くのトークンにマッピングされる可能性がある。コンテンツの種類によって、おおよそ1.0〜1.35倍だ。導入価格は、Sonnet 5 へ移行してもおおむねコスト中立になるよう設定した」