Claude Sonnet 5が公開

(anthropic.com)

6 ポイント投稿者 GN⁺ 3 시간 전 | 4件のコメント | WhatsAppで共有

Anthropicは2026年6月30日にClaude Sonnet 5をリリースし、より高価なOpus級モデルに近いエージェント実行能力をSonnet級のコストで提供しようとしている
Sonnet 4.6よりも推論、ツール利用、コーディング、知識作業が改善され、effortの調整によりタスクごとのコストと性能のバランスをより細かく選べる
安全性評価では、望ましくない挙動、ハルシネーション、迎合、悪意あるリクエストの受諾、プロンプトインジェクションによるハイジャック脆弱性がSonnet 4.6より低かった一方、一部のミスアラインメント挙動はOpus 4.8とClaude Mythos Previewより高かった
FreeとProではデフォルトモデルとして提供され、Max、Team、Enterprise、Claude Code、Claude Platformでも利用でき、APIモデル名はclaude-sonnet-5
Claude Platformの価格は2026年8月31日まで入力100万トークンあたり**$2**、出力100万トークンあたり**$10**で、その後は入力$3、出力$15に変更される。新しいトークナイザーにより、同じ入力のトークン数がコンテンツ種別に応じて約1.0〜1.35倍になる場合がある

Sonnet級で広がったエージェント実行範囲

Claude Sonnet 5は、これまでのSonnetモデルの中で最もエージェント型として設計されており、数か月前ならより大きく高価なモデルが必要だった水準の自律実行を目指している
計画立案、ブラウザやターミナルのようなツール利用、自律実行をSonnet級モデルで処理できるように改善された
Sonnet 3.5、3.6、3.7は、開発者にコーディングとツール利用能力を示した初期のSonnet級モデルとして位置づけられ、その後もっとも顕著なエージェント能力の改善はOpus級モデルで見られた
Sonnet 5はOpus 4.8との差を縮め、より低い価格帯でOpus 4.8に近い性能を提供する

性能評価とeffort調整

Sonnet 5はSonnet 4.6と比べ、推論、ツール利用、コーディング、知識作業などのエージェント性能項目で大きく改善された
BrowseCompのエージェント検索評価とOSWorld-Verifiedのコンピュータ利用評価で、Sonnet 4.6より一貫して良い結果を示した
effortレベル別の比較で、Sonnet 5はOpus 4.8よりも広いコスト・性能の選択肢を提供する
- 中程度のeffortでは費用対効果が大きく向上する
- 高いeffortでは、一部のタスクでOpus 4.8と性能が肩を並べる場合がある
ユーザーはSonnet 5とOpus 4.8の間でeffortレベルを調整し、プロジェクトに合ったコストと性能のバランスを選べる

初期ユースケースで見られた作業方式

早期アクセスパートナーは、Sonnet 5が従来のSonnetモデルよりはるかにエージェント型だと評価している
従来のSonnetモデルが途中で止まっていた複雑な作業を最後まで実行し、明示的に求められなくても自ら結果を確認する事例があった
確認されたワークフローには、コーディング作業と非コーディング作業の両方が含まれる
- 多段階のソフトウェアエンジニアリング作業で、継続的なコーディング、ツール利用、デバッグを処理する
- Salesforceアカウントの等級更新と、エンタープライズ連絡先向けのリリース告知送付からなる2段階の作業を最後まで完了する
- 実際のpull request数十件を、テスト・検証済みの結果まで自律的に実行する
- バグ調査で、再現テストの作成、修正の実装、変更分のstash、バグ再発確認までを一度に進める
- brownfieldコードでのrace condition、hidden test、失敗の真の根本原因追跡に強みを示す
法務リサーチと分析、ClickHouseのライブデータ探索、Paceの保険ワークフローのような非コーディング業務でも、性能と速度の改善事例が出ている

安全性評価とサイバーセキュリティ上の制約

デプロイ前の安全性評価で、Sonnet 5はSonnet 4.6より全般的な安全性が改善された
エージェント安全性の面では、悪意あるリクエストの拒否と、プロンプトインジェクション攻撃によるハイジャック試行への耐性が向上した
Sonnet 4.6よりハルシネーションと迎合の比率が低く、悪用への協力や欺瞞などのミスアラインメント挙動を検査する自動行動監査でも、より低いスコア、つまりより安全な結果を示した
ただし、より高い能力を持つOpus 4.8とClaude Mythos Previewと比べると、この評価で一部のミスアラインメント挙動の比率がやや高かった
Sonnet 5はサイバーセキュリティ作業向けに意図的に学習されていない
- 日常的で有害でない一部のサイバー作業は実行できる
- ソフトウェアエクスプロイト開発のような潜在的に危険なサイバー技術評価では、Opus 4.8とMythos 5より性能が大幅に低い
- Firefoxブラウザ脆弱性のエクスプロイト開発評価では、完全に動作するエクスプロイトは作れなかったが、Sonnet 4.6より部分成功率はわずかに高かった
従来モデルより当該タスクでわずかに強くなったため、サイバー保護機能がデフォルトで有効化された状態でリリースされる
- 危険なサイバー利用をリアルタイムで検知してブロックする
- Claude Opus 4.7・4.8に適用されたものと同じ保護機能
- Sonnet 5の全体的なサイバーセキュリティリスク水準は低いと判断され、より広範なサイバーセキュリティ作業をブロックするFable 5の保護機能よりは厳格ではない
評価全体の内容はClaude Sonnet 5 System Cardで確認できる

提供範囲、価格、API

Claude Sonnet 5はすべてのプランで提供される
- FreeとProプランのデフォルトモデル
- Max、Team、Enterpriseユーザーが利用可能
- Claude CodeとClaude Platformでも提供される
開発者はClaude APIでclaude-sonnet-5を利用できる
Claude Platformのローンチ価格は2026年8月31日まで、入力100万トークンあたり$2、出力100万トークンあたり$10
その後の標準価格は、入力100万トークンあたり$3、出力100万トークンあたり$15に変更される
高いeffortレベルでトークン使用量が増える点を受け入れるため、Chat、Cowork、Claude Code、Claude Platform全体のリクエスト上限が引き上げられる
Sonnet 5はSonnet 4.6のアップグレードだが、更新されたトークナイザーを使用する
- 性能改善のため、テキスト処理方式が変更された
- 同一の入力がコンテンツ種別に応じて約1.0〜1.35倍のトークンにマッピングされる場合がある
- 導入価格は、Sonnet 5への移行がおおむねコスト中立になるよう設定されている

BrowseCompチャートの更新

2026年6月30日の編集で、BrowseComp評価のコスト・性能チャートが更新された
元のチャートは、Anthropicがエージェント検索評価に使用する標準手法を反映していない、より単純な手法のデータに基づいており、その結果Sonnet 5の性能が過小評価されていた
更新されたチャートは、標準手法およびSonnet 5 system cardで使用・議論された方式に合わせられた
- この方式は10Mトークン予算、圧縮、プログラムによるツール呼び出しを使用する
周辺の説明文もあわせて更新された

4件のコメント

dhkd63 2 시간 전

opus 4.8に慣れてしまったのか、しばらくSonnetを使っていなかったからなのか……
今日Sonnetを少し使ってみて、かなりがっかりしました。
以前なら十分満足していたかもしれませんが、思ったよりハルシネーションがかなり出ました。

sea715 2 시간 전

Fableをください..

seoseonyu 3 시간 전

早く Fable を出して… 😢😢

GN⁺ 3 시간 전

Hacker News の意見

タスクあたりのコストのチャートを見ると、Sonnet 5 は中程度の effort を超えて使うべきではなさそう。同じコストなら Opus のほうが常に優れているので、Sonnet 5 の medium で足りないなら、effort を上げるのではなくモデルを替えるのが結論に見える
- こうした情報を公開してくれるのはありがたいが、だんだん追いかけるのが難しくなってきた。異なるモデルと effort レベルがどんな性能を出し、どんなタスクに向いているのかについての頭の中のモデルを失ってしまった
  実際には Claude Code のデフォルトをそのまま使うことが多く、それで十分うまく動いている。ただ、他のユーザーがプロジェクトに合わせてこうした設定をどれくらい試し、最適化しているのかは気になる
- ここには 2 つの変数がある。Claude.ai のサブスクリプションでは Sonnet は Opus よりかなり安いようで、そのため Max ティアには長らく Sonnet 専用の使用量バーがあった
  また、タスクによっては純粋な入力トークン量そのものが最も重要になる。たとえばマルチモーダルなコンピューター利用タスクは、Opus で推論を下げてもより効率的にはできないため、Sonnet のような安価なモデルが有用になる
- 同じチャートを見たが、Opus と比べた曲線の位置がかなり意外だった。Sonnet 5 は「Opus に超低 effort レベルがもう 1 つあったら？」という感じ
- 反論するとすれば、Sonnet のほうが速い可能性はある。同じタスクにより多くのトークンを使えるので確実ではないが、同期的な反復作業フローではより多くの作業を処理できる可能性がある
  ただ実際には、モデルが作った結果を直すのに時間がかかりすぎるので、遅くてもより賢いモデルのほうが全体の時間を減らしてくれると思う
- Sonnet モデルなので Sonnet 4.6 より良いのは確か[0]。より賢く、速く、安いが、Opus 4.8 low や GLM-5.2 の代わりに使う理由はよく分からない
  [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
自分のベンチマーク[0]で試したところ、GLM-5.2 レベルで、コストは 2 倍だが速度も 2 倍だった
弱点は、常識クイズが 0/3 で内蔵知識がほとんどなく、複合的なツール呼び出しタスクは 45/100 で時々誤ったツール呼び出しをし、パズル解決は 77 点で洗車場系テストでミスをすること
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
- そのベンチマークでは Gemini 3.5 Flash が最高のモデルになっているが、自分には納得できない
- いつものことだが、GLM-5.2 より速いという話には大きな意味はない。GLM-5.2 は複数のプロバイダーが配信しているため、推論速度はプロバイダーや時点によって大きく変わり得る
- 両方を計画と実行に使ってみた不完全な比較では、GLM5.2 は性急すぎて、何かをやろうという意欲が強すぎるため問題を作ることが多い。たとえばデプロイや git の使用をしてはいけないときにもやろうとする
  一方 Sonnet 5 は、使ってみた Claude モデルの中ではずっと怠惰で、依頼した計画の補足を追加しなかったうえで、尋ねるとやったと嘘をついた。分析[0]を見る限り、自分には価値がなさそうで、他の人には違うかもしれない。Fable は明らかにはるかに良かった
  [0]: https://artificialanalysis.ai/models/claude-sonnet-5
複数のベンチマークで、中程度より高い effort だとタスクあたりのコストが Opus を超えるのに、なぜこれを使って単に Opus の低 effort を使わないのか理解しにくい
思いつくのは Opus のクレジットが尽きた場合くらい。もちろん API 課金のユースケースはあるだろうが、それでも低 effort の Opus を使うと思う
- 最近は、Opus が馬鹿げたことをしないよう止める場面がどんどん増えていて、毎回、作業をやたら複雑にしないでくれと言わなければならない
  モデルは問題解決よりも、ユーザーと会社からもっと金を引き出す方向に最適化されているように思える。2〜3 行の単純な Python 作業を明確に指示したのに、なぜ Opus がライブラリ全体を作ろうとするのか分からない
- 特定タスクベースのベンチマークは、日常的なエージェント型ユースケースをあまり反映していないと思う。個別タスクを 1 つずつ処理し、そのたびにコンテキストを消せるなら、Opus の低 effort でそうした効率が出るかもしれない
  しかし実際の問題を解きながら反復し探索していくと、コンテキスト長は次第に伸びていき、そのとき Opus が高くつく場合が多い
- 以前の Opus モデルはいずれサポート終了になる可能性が高く、時間が経てばこれが最も安いモデルになるだろう。今の価格引き上げのやり方はそういうものだ
- システムカード[0]の 117〜118 ページにあるエージェント型コーディングベンチマークを見ると、低 effort でも Sonnet 4.6 のどのレベルより性能が良く、価格もかなり安く見える。なので、Opus が計画した作業を処理する作業員としては悪くないかもしれない
  [0] https://www.anthropic.com/claude-sonnet-5-system-card
- 速度が大きな理由。単純な作業を素早く終わらせたいときがあるが、Opus が考え始めるまで 30〜60 秒待つのは本当に遅く感じる
Claude Sonnet 5は、これまでのSonnetの中で最もエージェントらしく作ったとのこと。計画を立て、ブラウザやターミナルのようなツールを使い、数か月前ならより大きく高価なモデルが必要だったレベルで自律実行できるという
私は完全なエージェント主導開発よりも、エージェント支援開発を主にしているので、OpusよりSonnet 4.6を多く使ってきた。だがこの発表は前向きには感じられない。モデルが完全なエージェント型開発に最適化されるほど、支援開発にはむしろ悪くなり、非常に厳密で具体的な指示に対しても過剰に作業を広げることが多かった
ここ数週間はK2.7 CodeとGLM-5.2へ徐々に移行している。支援用途なら十分なことが多く、非常に速く安い
- こうした会社の一つには、言葉を借りればエージェント支援開発向けのモデルに時間を投じる余地が明らかにある
  問題は、その会社の内部の人たちが、1〜2年後には誰もそのようなやり方では働いていないと信じているらしい点だ
- 最近はKimi K2.6を使っている。まだ社内承認ルートでは2.7を使えないが、自分が何をしようとしているかをすでに分かっていて、工程を分割して進めたいときには悪くない
  Opusより少し多めに直す必要はある。ただ、本当の基準は「すべての行を読む必要がある」と「すべての行を読まなくても信頼できる」の間にあり、私にとって後者に到達したモデルはまだなく、しばらくはそうならなそうだ。アーキテクチャをブレインストーミングしてコードに落とし込む点ではOpusほど良くないが、常にそれが問題になるわけではなく、必要ならOpusを使えばよい
  そのおかげで、コーディングが多い週でも水曜や木曜あたりに支出上限にぶつからず、週を通して余裕がある。ただ実際には、K2.6はOpusよりはるかに強く抑える必要がある感覚だ。単に質問したいだけなのに、すぐコーディング作業だと推論して走り出させないよう、かなり注意が必要になる。どちらも計画モードで使っているが、K2.6ではOpusより防御的に使う必要がある
- しばらく、M1 Mac Studioの64GBメモリで動かすローカルモデルへ完全に移行していた。それでもローカルの量子化Qwen3.6では足りないと感じるまれな場合には、OpenrouterにつないでKimi、GLM、DeepseekなどをAnthropicなどの一部の価格で使っている
- ほとんど同じ感覚で、状況も似ている。Sonnetを使うときのより大きな利点は応答時間だ
- OpenAIモデルのGPT 5.5のようなものを試してみるとよさそうだ。プロンプトで定めた指示や境界をよりよく守り、知能を失わずにClaudeモデルより有能なエージェント支援者のように感じられる
  私の作業の大半は、投げっぱなしで忘れる方式ではなく、エージェント型エンジニアリングに近い。計画段階にも継続的に関与し、結果をレビューし、他の人よりはるかに多くエージェントに質問を投げる方だ。要件、範囲、設計、時には特定のモジュール境界まで決めておき、空欄を埋める「超強力なオートコンプリート」モードのように使うやり方が、自分には最も合っている
GLM 5.2よりも価格性能比が悪そうに見える。GLM 5.2は744Bパラメータしかないのにそうだ
システムカードには「CyberGymの脆弱性発見において、Claude Sonnet 5はSonnet 4.6より能力が低く、Opus 4.8およびMythos 5よりはるかに能力が低い」とある
また「このセクションの他の評価と同様に、すべての保護措置をオフにした状態で得られた結果だ。デフォルトの緩和策をオンにして実行すると、Sonnet 5はCyberGymで0点を取った」とのこと
- GLM-5.2とSonnet 4.6で文章を書き直してみたが、大規模言語モデルは非決定的なので結果はまったく違った。GLM-5.2は手で直す必要のある微妙なミスを多く出し、逆にSonnetは2回目で全てのミスを見つけて直した
  計画やコーディングでも似たようなものだった。GLM-5.2は「机上」では良く見えるが、実際に使った結果は違った
  ClaudeやGLM-5.2を弁護したいわけではない。2022年11月から毎日大規模言語モデルを使って分かったのは、一般的なテストは自分のプロジェクトで確認すべきだという点だ。「すべてを支配する一つのモデル」はなく、何千ものモデルという干し草の山から特定のモデルを見つけ出す必要がある
  ベンチマークは役に立つが、だんだん自動車広告の燃費仕様のようになってきている。実燃費は人によって違う
- ついに実行可能な事業戦略が出てきた。セキュリティに無知なコードモンキーは安く売り、その混乱を片付けられるエージェントにはプレミアム料金を取ればいい
- 特定の人を狙うわけではないが、HNでの議論の質がいつかこうした基本的な比較を超えてくれるといい。モデル発表スレッドごとに同じコメントが繰り返されているように思える
  「XモデルはTベンチマークでClaude ZよりY%良い、または悪い」「それは意味がない、ベンチマーク向けに調整されている」「日常のコーディングやエージェント作業には使えない、感触がまったく違う」「ほぼ同じでずっと安いから自分は絶対使う」「段階的な性能差のせいで、オープンモデルの低コストでは生産性損失を埋められず、正当化できない」といった具合だ
  Anthropicに不満を持つ顧客であり、オープンモデルと閉じられていない知能を本当に応援している。だが、今やミームのようになったモデル発表談義の反復からどう抜け出せるのか分からない。私自身も大規模言語モデルやベンチマークを設計する人間ではなく、完璧ではなくても情報を提供しようとする努力には心から感謝している。こうした発表コメントを継続的に読んでいる人たちの大半は、似たように感じているのではないかと思う
Claude Sonnet 5は、自分のペリカンをガチョウのように描写した
「白いガチョウが自転車に乗っており、片方の翼を前に伸ばしてハンドルを握っていて、無地の白い背景に茶色の地面の線がある」
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
- 最近の大規模言語モデルが作ったペリカンの中で最悪かもしれない
  一方でGLM 5.2は、見事で独立して動作する完全アニメーションSVGのペリカンを描いた
  https://simonwillison.net/2026/Jun/17/glm-52
今日うっかりSonnet 5を少し使ったが、ソフトウェア開発ではOpus 4.8よりかなり悪そうに見えた
サイバーセキュリティに対する過度なパラノイアが、結局モデルにより安全性の低いコードを生成させることになるのか気になる。安全なコードを作る能力があるということは、サイバーセキュリティについて何かを知っているという意味であり、その知識で世界中の銀行をハックできるとも見なせるからだ
- 画像生成モデルでヌードを検閲しようとして、解剖学的表現にさまざまな問題が生じた。こうしたモデルでもセキュリティで似たような問題が起きそうだ
- それが狙いなのかもしれない
このモデルにはかなり期待していたので、別々の3つのプロジェクトで Opus のプランナーたちに、Opus のサブエージェントの代わりに Sonnet を使って HPC カーネル実験をもっと速く手伝ってくれと頼んだ。ところが、どれもコードを1行も書かず、Sonnet たちはぐるぐる回ってトークンを浪費し続けただけだった
自分のコードベースで Opus にこういうことが最後に起きたのがいつだったかも思い出せない。元に戻しているところだ
- 新モデルのリリース時には以前にもこういうことがあった。Opus 4.7 が出たときも20分以上「作業中」のままだったので、そのまま完全に終了して翌日まで待った
  自然に解消した
重要なのはここだ。「Sonnet 5 は Sonnet 4.6 のアップグレードだが、性能向上のためにモデルがテキストを処理する方法を変える更新版トークナイザーを使用する。これは Claude Opus 4.7 で導入したトークナイザー変更に似ている。代償として、同じ入力がより多くのトークンにマッピングされる可能性がある。コンテンツの種類によって、おおよそ1.0〜1.35倍だ。導入価格は、Sonnet 5 へ移行してもおおむねコスト中立になるよう設定した」
- では導入期間後の価格は、Sonnet 5 が100〜135%高くなるよう設定されるという意味なのか？
- 「価格を上げる方法は2つあります。(1) トークン単価を上げる、または (2) ユーザーの代わりに生成するトークン数を増やす、です。私たちは (2) を悪意を持って行わないと約束します。約束します」