Claude 4発表：Opus 4とSonnet 4

(anthropic.com)

1 ポイント投稿者 GN⁺ 2025-05-23 | 1件のコメント | WhatsAppで共有

Anthropicは Claude Opus 4 と Claude Sonnet 4 を発表し、コーディング・高度な推論・AIエージェント作業を次世代Claudeの中核性能領域として打ち出した
両モデルは即時応答と深い推論を行き来する ハイブリッドモデル であり、拡張思考中のWeb検索のようなツール利用と、並列ツール実行をサポートする
Opus 4はSWE-benchで 72.5%、Terminal-benchで 43.2% を記録し、Sonnet 4はSWE-benchで 72.7% を記録して、Sonnet 3.7に比べコーディング・推論・指示遵守を改善した
Claude Code は正式リリースされ、ターミナル、VS Code、JetBrains、GitHub Actions、SDKへ拡張され、PRレビュー対応・CIエラー修正・コード変更まで担える
APIにはコード実行ツール、MCP connector、Files API、最大1時間のプロンプトキャッシュが追加され、開発者はより強力なAIエージェントを構築できる

Claude 4モデル発表

Anthropicは Claude Opus 4 と Claude Sonnet 4 をClaudeの次世代モデルとして発表した
両モデルの主な焦点は、コーディング、高度な推論、AIエージェント作業である
Claude Opus 4 は、複雑で長時間実行される作業やエージェントワークフローで持続的な性能を発揮するコーディングモデルである
Claude Sonnet 4 はClaude Sonnet 3.7のアップグレードであり、コーディング・推論性能と指示遵守の精度を高めた

提供形態と価格

Claude Opus 4とSonnet 4は、ほぼ即時の応答と、より深い推論のための 拡張思考 モードの両方を提供する
Pro、Max、Team、EnterpriseのClaudeプランには、両モデルと拡張思考が含まれる
Sonnet 4は無料ユーザーも利用できる
両モデルはAnthropic API、Amazon Bedrock、Google Cloud Vertex AI で提供される
価格は従来のOpus・Sonnetモデルと同じ
- Opus 4：入力/出力100万トークンあたり $15/$75
- Sonnet 4：入力/出力100万トークンあたり $3/$15

Opus 4のコーディング・長期作業性能

Claude Opus 4 はAnthropicの最も強力なモデルで、SWE-bench 72.5%、Terminal-bench 43.2% を記録した
数千ステップの集中作業を必要とする長期タスクで持続的な性能を発揮し、数時間にわたって連続作業できる
CursorはOpus 4をコーディングにおける最先端モデルと見ており、複雑なコードベースの理解で大きな進展があったと評価している
Replitは、複数ファイルにまたがる複雑な変更で精度が向上したと述べている
Blockは、自社エージェント codename goose において、Opus 4が編集・デバッグ中にコード品質を高めながら性能と信頼性を維持した初のモデルだと説明している
Rakutenは、難度の高いオープンソースのリファクタリング作業をOpus 4が 7時間 独立して実行し、持続的な性能を示したと検証した
Cognitionは、Opus 4が以前のモデルが見落とした重要な作業や、他のモデルが解決できなかった複雑な課題に強いと評価している

Sonnet 4の位置づけ

Claude Sonnet 4 はSonnet 3.7から改善されたモデルであり、SWE-benchで 72.7% を記録した
社内・社外のユースケースに向けて性能と効率のバランスを目指し、実装制御のための steerability も向上している
ほとんどの領域でOpus 4と同等ではないが、能力と実用性の組み合わせを提供する
GitHubは、Sonnet 4をGitHub Copilotの新しいコーディングエージェントを駆動するモデルとして導入する予定である
Manusは、複雑な指示遵守、明確な推論、美的な成果物での改善を強調している
iGentは、自律的な多機能アプリ開発とコードベース探索が改善し、探索エラーが 20%からほぼ0 に減少したと述べている
Sourcegraphは、Sonnet 4がより長く方向性を維持し、問題をより深く理解し、より洗練されたコード品質を提供すると評価している
Augment Codeは、より高い成功率、より精密なコード編集、複雑な作業での慎重さを理由に、Sonnet 4をデフォルトモデルの最優先候補にしている

モデル機能の改善

両モデルは拡張思考中にもツールを使用できる
- 例として web search を使用できる
- Claudeは推論とツール利用を交互に行い、応答を改善できる
並列ツール実行 と、より正確な指示遵守もサポートする
開発者がローカルファイルへのアクセスを提供すると、モデルは重要な事実を抽出・保存し、連続性と暗黙知を維持する メモリ機能 を示す
近道や抜け穴を使って作業を終わらせる行動は、Sonnet 3.7に比べて減少した
- 特に近道や抜け穴に弱いエージェント作業において、両モデルがそのような行動を取る可能性はSonnet 3.7より 65%低い
Opus 4は、開発者がローカルファイルアクセスを提供するアプリケーションで、重要情報を含む memory files を作成・維持することに強い
- 例として、Pokémonをプレイしている間に Navigation Guide を作成する
- 長期作業の認識、一貫性、エージェント作業性能を改善する

思考要約とDeveloper Mode

Claude 4モデルには、長い思考プロセスを小さなモデルで圧縮する thinking summaries が導入された
この要約が必要になるのは約 5% のケースのみである
ほとんどの思考プロセスは、全体を表示するのに十分短い
高度なプロンプトエンジニアリングのために生の思考連鎖が必要なユーザーは、contact sales を通じて新しい Developer Mode について問い合わせることができる

Claude Code正式リリース

Claude Code は正式リリースされ、Claudeをターミナル、IDE、バックグラウンド実行ワークフローへ拡張する
VS CodeとJetBrains向けの新しいベータ拡張がClaude CodeをIDEに直接統合する
- Claudeが提案した編集内容はファイル内にインライン表示される
- ユーザーは使い慣れたエディタ内でレビューと変更追跡を行える
- IDEターミナルでClaude Codeを実行するとインストールされる
GitHub Actionsを通じた バックグラウンド作業 をサポートする
拡張可能なClaude Code SDKも公開された
- 開発者はClaude Codeのような中核エージェントを使い、独自のエージェントやアプリケーションを作れる
Claude Code on GitHub はベータで提供される
- PRでClaude Codeをタグ付けして、レビュアーのフィードバックに応答し、CIエラーを修正し、コードを変更できる
- Claude Code内で /install-github-app を実行してインストールする

APIと安全性

Anthropic APIには、AIエージェント開発のための 4つの新機能が追加された
- コード実行ツール
- MCP connector
- Files API
- 最大 1時間 のプロンプトキャッシュ
Claude 4モデルは、コンテキスト全体の維持、長期プロジェクトでの集中維持、大きな影響を生む作業に向けた一歩として位置づけられる
モデルには、リスクを減らし安全性を高めるための広範なテストと評価が適用されている
より高いAI Safety Levelsである ASL-3 のための保護措置が含まれる
ユーザーは Claude、Claude Code、または好みのプラットフォームから始められる

ベンチマークの報告方法

Claude Opus 4とSonnet 4はハイブリッド推論モデルであり、公開されたベンチマークは拡張思考の使用有無にかかわらず達成した最高スコアを示している
拡張思考を使用していない結果は次の項目である
- SWE-bench Verified
- Terminal-bench
拡張思考を使用した結果は最大 64Kトークン まで使用している
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
拡張思考なしで測定した一部のスコアも提供されている
- GPQA Diamond：Opus 4 74.9%、Sonnet 4 70.0%
- MMMLU：Opus 4 87.4%、Sonnet 4 85.4%
- MMMU：Opus 4 73.7%、Sonnet 4 72.6%
- AIME：Opus 4 33.9%、Sonnet 4 33.1%

TAU-benchとSWE-benchの方法論

TAU-benchのスコアは、AirlineとRetail Agent Policyにプロンプト付録を追加し、Claudeが拡張思考とツール利用中に推論能力をよりよく活用できるようにした設定で得られた
モデルは問題解決中、通常の思考モードと区別される形で考えを書くよう促される
追加の思考によりステップ数が増える可能性があるため、最大ステップ数は 30から100 に増加した
- ほとんどの軌跡は30ステップ未満で終了する
- 50ステップを超えた軌跡は1つだけだった
Claude 4系のSWE-benchでは、以前のリリースと同じ単純なスキャフォールドを引き続き使用する
- ツールはbashツールと文字列置換方式のファイル編集ツールの2つのみである
- Claude 3.7 Sonnetで使用した3つ目の planning tool は含まれなくなった
すべてのClaude 4モデルのスコアは全 500問 を基準に報告される
OpenAIモデルのスコアは 477問のサブセット を基準に報告される
“high compute” スコアは、並列テスト時の計算と追加の複雑性を使用する
- 複数の並列試行をサンプリングする
- リポジトリの可視リグレッションテストを壊すパッチを破棄する
- 隠しテスト情報は使用しない
- 内部採点モデルで残った試行の中から最良候補を選択する
この方式でのhigh computeスコアは、Opus 4 79.4%、Sonnet 4 80.2% である

1件のコメント

GN⁺ 2025-05-23

Hacker News の意見

今回の発表で抜けている重要な点は、Claude 4 の学習カットオフが2025年3月だということ。最近のモデルの中では最も新しく、Gemini 2.5 は2025年1月カットオフ
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- いまや主要な一般ユーザー向け LLM 製品にはすべてウェブ検索が入っていて、一部の API でも提供されていたり、時には意図せず可能だったりするので、少なくとも個人的には正確なカットオフ月の重要性はどんどん薄れている感じがする
  よく使うモデルは、特定の話題に新しい情報が必要だと自分で判断して取りに行けるくらいには賢い
- いいね。これでようやく Svelte 5 を知っているかもしれない
- Claude が Tailwind 4 を知らなくて苦労したことがあり、Tailwind CSS について聞いてみたら、自分は2025年1月カットオフ時点で最新安定版の Tailwind CSS 3.4 まで知っていると答えた
- なぜ継続的に学習させられないのだろう？
- それでも何が更新され、何が更新されていないのかは分からない。更新可能なものはすべて更新されたと仮定してよいのだろうか？
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
このモデルは、「Assign to CoPilot」がパッケージアップグレードのような大半の機械的な作業を自動処理してくれるという夢に、さらに近づけてくれるかもしれない。メンテナンス負担が減れば、古いプロジェクトの復活につながる可能性も大きい
- そうかもしれないが、以前のすべてのモデルが出たときも同じ期待をされていた
- 安価なコーディングエージェントがオープンソースに何をもたらせるのか、本当に楽しみ。実は CheepCode[0] のクレジットをオープンソースプロジェクトに配るべきだと思っている
  まだ正式な仕組みはないが、このコメントを見て無料のコーディングエージェント実行が必要なら、メールしてくれればセットアップする
  [0] 私のヘッドレスなコーディングエージェント製品で、「assign to copilot」に似ているが、Linear や Jira のようなタスクボード上で複数のタスクを並列処理する。これまで単純で反復的な機能ではかなり成功しており、概してテストが良いほど生成されるコードも良くなる。もちろん自分でテストを書くこともできるし、実際に書いている
- こういうモデルが有用かどうかを判断する私の基準はまさにそこ。再び動くようにするには大規模なリファクタリングが必要なプロジェクトがあり、主にはパッケージアップグレードだが、作成当時にはなかった新しい言語セマンティクスに合わせてコードも直す必要がある
  現在の AI モデルは、この作業では実質的にまったく進展を出せていない。できるようになるまで試し続けるつもり
- パッケージアップグレードと機械的な作業は、すでにボットで大部分が解決済みの領域
  ここで AI が手伝える部分は、変更点、衝突、コードベースへの影響の要約と、可能ならセキュリティスキャンくらいだと思う
- Copilot にいつ適用される予定か、情報を見た人いる？
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
いまや三つの LLM プロバイダーすべてが**思考過程（CoT）**を隠しているように見える。残念なのは、間違った方向に進もうとする瞬間が見えて、プロンプトを素早く調整するのに役立っていたこと
OpenAI だけでなく Google も最近、思考過程を要約に置き換え始めたが、個人的には過度に単純化された要約だと思う
- 思考過程を除外する理由は、最近の Anthropic の論文のせいかもしれない？
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  論文では、最新の推論モデルの思考過程の忠実度を6種類の推論ヒントで評価しており、ほとんどの設定とモデルで、ヒントを使った事例のうち少なくとも1%は思考過程に現れるものの、開示率はたいてい20%未満であり、結果ベースの強化学習は当初は忠実度を上げるが飽和せず停滞し、報酬ハッキングによってヒントの使用頻度が増えても、思考過程でそれを言語化する傾向は増えないという
  つまり思考過程もモデルの作り話の説明である可能性がある。だから Anthropic 内部の誰かが顧客を誤解させたくないのかもしれないし、この問題が解決されれば戻ってくるかもしれない
- これは錬金術で、誰もが鉛を金に変えるうえで自分だけの優位性があると信じているからだ
- 記憶では、RLHF は危険な応答をしないよう学習させる過程で、モデルの正確性を必然的にある程度犠牲にする
  思考過程用のモデルが、エンドユーザーとやり取りするモデルとは異なる学習をされているなら筋が通る。例えば MoE の別の専門家かもしれないし、ユーザーはどうせ公開モデルでフィルタリングされた出力だけを見るので、思考過程モデルは RLHF 前に近い元のモデルにより近くても、会社の評判リスクは小さい
  こうすれば元のモデルの性能を得ながら、実害や深刻な PR 事故を防ぐためのフィルタリングは維持できる
- DeepSeek がまた全員を圧倒するまで待つしかなさそう
- Zig を学ぶときは思考過程がものすごく役立った
  Zig と実装について質問するとき、モデルの思考過程を見ることで視野が大きく広がった
このバージョンが以前より良くなっているわけではなく、LLMは実質的に停滞期に入り、新リリースの「機能」はたいてい目くらましに近いと思っているのは、自分だけではないはず
- 周辺部分だけが良くなっているように見える。MCP、ツール呼び出し、構造化出力のような領域。確かに知能が上がったわけではないが、付加価値は増えていて、その価値が学習コストや会社のバリュエーションに見合うのかは分からない
  現実的に、こうした会社がどう持続可能になるのかまったく見当がつかない。クラウドGPUで推論をホストしてみたが、無料プランを少しでも付けるとコストが極端に重く見えた
- 「LLMが停滞期に達した」というのは、新しい確率的オウムミームのように聞こえる。数時間前にトップに上がっていた記事だけを見ても、LLMベースのエージェントがメール検索ツール3つと「私の兄弟の子どもの名前を見つけろ」という単純なタスクを与えられ、体系的に問題を解き、検索を絞り込み、「Xの好きな食べ物」とYouTubeリンクだけがあるメールから正しい名前を推論していた
  alphaevolve、ブラウザを起動しながら機能を探索してPlaywrightテストを書くMicrosoftのCopilotエージェントのテストデモ、そしてコーディング分野の進歩は言うまでもない
- Claude Codeをかなり使ってきたが、同意する。アップデート後に違いをまったく感じなかった。要約は少しきれいになった気がするが、能力面で驚かされたことはない
  TypeScriptコードベースでは3.7のときと同じように、何度も直させて再プロンプトする必要があった。間違ったファイルを編集していた状況で、コードをすべて削除し、こちらが見ている対象がまったく変わっていないことを示すよう強制するまで、より具体的に確認しようと思い至らなかったのにはかなり衝撃を受けた
- 全体的に同じ感触。最近のベンチマークでの勝利はチューニングから来ているように見え、その代わりに別の領域で損失が出ている。o3、o4-miniもSimpleQA、PersonQAでo1より幻覚が多い
  合成データは幻覚率を高めるようで、推論モデルは各推論ステップごとに幻覚がモデルを逸らすリスクがあるため、より脆弱
  汎用利用の観点でのLLMは、今年初めごろにはすでに終わっていたと思う。OpenAIもGPT-5をキャンセルし、その後「得るものに対して高すぎる」GPT-4.5をリリースしてからすぐ終了することにして、このことを悟った
  株式市場がまだこれを織り込んでいるかは分からない。ここから抜け出すにはブレークスルーが必要
- 多くの場合、ベンチマークはClaude 3.7とかなり似て見える
  とはいえ、停滞期に達したと見るにはまったく十分ではない。進歩の速度がものすごく速かったので、そう判断するにはあと数カ月待つべき
  機能についてはむしろ逆に考えている。目くらましではなく、コアAIそのものではないにせよ、AIを実際に活用するために必要な重要なツール化だ。大衆的な利用という基準でのLLM分野はまだ初期段階。モデルがこれ以上良くならなくても、インタラクションの仕方、情報の供給、ツール呼び出しのような機能面には、使いやすさと能力を大きく引き上げる余地が非常に多い
Claude 3.7が本当に好きで毎日使っており、Geminiモデルより概ね好んでいる。ところがClaude CodeでOpus 4をGoコードベースのほぼ新規機能作業に使ってみたところ、思考プロセスは良いものの、**ツール呼び出しの70〜80%**が失敗する
「Write」「Update」のような基本ツールも間違った構文で失敗する。ファイル作成の試行5回がすべて失敗し、「contentパラメータを追加するのをまた忘れています。修正します」と言って試行を続ける
何かがおかしい。すぐ解決することを願うが、現時点では少なくともOpus 4はClaude Codeで使えない。それでも生成に成功したファイルの品質は高かった
- 原因を見つけたようで、明らかなバグに見える: https://github.com/anthropics/claude-code/issues/1236#issuec...
  基本的に最大出力トークン数に引っかかり、新しいファイル全体を一度に書こうとして応答が止まっているようだ。「不正なツール呼び出しパラメータ」エラーは見当違いだった
すでにOpus 4とSonnet 4を私たちのSQL生成ベンチマークでテストした: https://llm-benchmark.tinybird.live/
Opus 4が他のすべてのモデルに勝っており、良い
- Opus 4がワンショットで最悪というのは変だ。有効なクエリを生成するのに平均2回の試行が必要
  モデルが本当にそれほど賢いなら、初回の性能も良いはずでは？いずれにせよ事前に「考える」のだから
- 興味深いことに、Claude-3.7-SonnetとClaude-3.5-SonnetがClaude-Sonnet-4より順位が高い
- このベンチマークはかなり興味深い。他のベンチマークでよく見てきたモデル順位を崩しているように見える
- Claude Premiumに課金しているが、実際にはGrokもかなりよく使っている。「think」機能のほうが望む結果に連れていってくれることが多い
  xAIモデルが一覧にないのは不思議。Grokという名前はひどいが、かなり頻繁に驚かせてくれる。まだ250ドルのChatGPTモデルは使っておらず、最近のOpenAIの振る舞いは気に入らない
- 気になるのだが、質問とSQLがLLMの学習データに含まれていないとどうやって分かるのだろう？ベンチマークの質問とSQLはオンラインにあるように見える: https://ghe.clickhouse.tech/
Claude 4のコンテキストウィンドウの変更点を文書化しているところはある？よく分かっているわけではないが、Gemini 2.5が有用だった理由の一つは、5万〜7万行規模の巨大なコンテキストを処理できたからだと理解していた
- Sonnetのコンテキストウィンドウはそのまま。入力200k、出力64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  実際には、Gemini 2.5の1Mコンテキストはそこまで大きな差別化要素ではない。コンテキストが大きくなるほど、後半のトークンにうまく従う能力の体感上のリターンは小さくなる
- コンテキストウィンドウを増やすか、プロンプトが長くなりすぎたときにもっと上手く処理してくれるといい。今は突然「prompt is too long」という警告が出て、長い会話や文章作成では扱いづらいモデルになってしまう
  他のツールは以前のコンテキストの一部を捨てたりRAGを使ったりすることもあるが、警告なしに新しいチャットを始めるよう強制することはない
- どういう意味なのかよく分からない。記事タイトルにOpus 4は200kコンテキストだと書いてある
  Sonnet 3.7のベータヘッダーと同じ
- コンテキストウィンドウのサイズは、かなり見せかけっぽい指標だ。正しいコンテキストがなければ、良い出力も出ない
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
モデル推論の「要約」は見たくない。モデルの推論が正しいか、結果を信頼できるかを確認するには、実際の推論を見る必要がある
OpenAIに続いてAnthropicまでが、モデルの思考過程を隠し、ユーザーが見られないトークンに課金し、実際に何が起きているのか分からなくする「要約」を提供する方向に進んでいるのは非常に腹立たしい
- 複数の論文が、「思考」出力は最終出力とあまり関係がなく、ドットや一時停止トークンで追加の処理ステップを可能にしても同様の改善が出ると報告している
  多くの面で、「思考」はほとんどマーケティングに近い
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - bycloudの概要動画 -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- あまり心配する必要はない。思考が出力からしばしば切り離されているという証拠は十分にある
  人々が実際には思考過程をほとんど読まないことを考えると、これはユーザー体験の改善だと思う
- これは自社のチャットインターフェースの話？ APIは今でもthinkingトークンを即時にストリーミングしている
- Gemini 2.5 Proもこうしていると理解している
Sonnet 4が3.7のようにツール呼び出しに執着しないことを本当に願う。3.5は、初めてモデルがプログラミングをマスターしそうだという魔法のような体験を与えてくれた。それ以降は少し下り坂のように感じる
- 3.7の「ついでにもう一つだけやっておきますね」式の過剰な積極性は、自分も本当に苦手だった。3.5レベルの指示遵守に戻ってほしい
- これはモデルの問題というより、システムプロンプトの問題のように感じる
90年代のCPU MHz競争が戻ってきたようだ。今ではCPUアーキテクチャや複数のベンチマークにおける微妙な価値の結果について騒ぐ代わりに、LLMの間で同じ種類のオタクっぽい話をしている
歴史は自ら韻を踏む
- 戻ってきたのは確かだが、2020年代半ばの技術発展の速度で戻ってきた。CPU MHz競争はもっとずっと遅かった記憶があるが、子どものころの90年代の時間感覚がもっと遅かっただけかもしれない
  それでも、今のAI競争で数か月ごとに新モデルが出るように、新しいCPUの「ドロップ」が数か月ごとにあったわけではないと、かなり確信している

Claude 4発表：Opus 4とSonnet 4

Claude 4モデル発表

提供形態と価格

Opus 4のコーディング・長期作業性能

Sonnet 4の位置づけ

モデル機能の改善

思考要約とDeveloper Mode

Claude Code正式リリース

APIと安全性

ベンチマークの報告方法

TAU-benchとSWE-benchの方法論

関連記事

1件のコメント

Hacker News の意見