Anthropic、Claude Opus 4.8をリリース
(anthropic.com)Anthropicは、自社の最上位モデルであるClaude Opusのアップグレード版 Claude Opus 4.8 をリリースしました。前バージョンの4.7をベースにベンチマーク性能を改善し、協業能力を強化しながら、価格は据え置かれています。
主な改善点と特徴
- 性能向上: コーディング、エージェント技術、推論、実務知識タスク全般で、前モデルおよびGPT-5.5などの競合モデルと比べて優れた性能を示します。
- 正直性(Honesty)の強化: AIが根拠のない主張をしたり、早計に結論を出したりする問題を改善しました。Opus 4.8は不確かな部分を自ら示し、コード内の欠陥を見落とす確率が前モデル比で約4倍低くなりました。
- 信頼できるエージェント能力: 初期テストの結果、複雑な多段階タスクを実行する際の判断力が鋭くなり、自身のミスを検知したり、計画が妥当でない場合に異議を唱えたりするなど、より優れた協業能力を示します。
- コスト効率: 「Fast Mode」の速度が2.5倍に向上し、コストは前モデル比で3分の1になりました。
同時に公開された新機能
- ダイナミックワークフロー(Dynamic Workflows): Claude Codeの研究プレビュー機能で、数百の並列サブエージェントを実行し、大規模コードベースの移行のような複雑な作業を実行できます。
- 努力制御(Effort Control): ユーザーがClaudeがタスクに投入する努力のレベルを選択できます。高い設定ではより深く考えて高品質な応答を提供し、低い設定ではより速く応答します。
- Messages APIの更新: システムエントリをメッセージ配列内に含められるようになり、プロンプトキャッシュを壊さずに作業の途中で指示を更新できます。
今後の計画
Anthropicは、Opus級の性能をより低コストで提供するモデルを開発中であり、Project Glasswing を通じてOpusより高い知能を持つ新しいクラスのモデル(Claude Mythos)を準備しています。現在、一部の組織でセキュリティテスト中で、数週間以内にすべての顧客へ公開される予定です。
価格と利用案内
- 通常モード: 入力 $5 / 1M トークン、出力 $25 / 1M トークン(Opus 4.7と同じ)
- ファストモード: 入力 $10 / 1M トークン、出力 $50 / 1M トークン
- モデル名:
claude-opus-4-8
11件のコメント
しょっちゅう無駄にハマらされるので、結局は安定している GPT のほうが良さそうです。
Claude の 200ドル版を使っていたけど、GPT 100ドル + Claude 100ドルに移って、
来月からは Claude は 20ドルだけ使うつもりです。どうせレビュー用なのでそんなにたくさん必要でもなくなったし、足りなければ AGY も有料で使っているので、それを使えばいいですしね。
SonnetとHaikuはなぜ見捨てられるんだろう? GPTとの競争ばかり考えているのかな
fast modeのバリアントは以前より2.5倍高速に動作し、コストは3分の1になったそうです。
ClaudeのサブスクをProに落としてGPTを使っているところですが、作業中だったものがあったのでレビューさせてみたら、Proの使用量が10分で全部溶けて止まってしまいました。
すごいな、Claude!
午前の間、私の場合は会議や録音の整理に使うスキルがあるので、これを 4.8 で
ultracodeにして effort を切り替えて使ってみたところ、思ったよりかなり良いですね。個人的な体感では、codexと似た傾向を示している感じです。トークン効率は、まあまだcodexには及びませんが、コンテキストウィンドウに余裕がありますし、さらに workflow の関係でサブエージェント画面も少し変わったのですが、この部分も気に入っています。4.7 は正直、体感的には使うのがかなり厳しいレベルでしたが、4.8 はどうか改善されていてほしいです。
ChatGPT/Codex に乗り換えるという人が多いので、慌てて出してきたんじゃないかという気もします..
/effortにすると出てくる効果が面白いです(笑)下の Hacker News コメントの翻訳にある「低いところにぶら下がった果実」という表現が何なのかと思って原文を探してみたところ、
low hanging juice to squeeze out of smaller models<< これが原文で、低い位置に実った果実が多い = 簡単に引き出せる潜在力がまだ十分に残っている、くらいの意味に解釈できそうですね
もうええやろ、ようけ食べたやろ〜
Hacker Newsの意見
Anthropicの最前線モデルで3回目のマイナーバージョンアップは今回が初めてのように思う
ここでは0.5刻みは非連続に出ていて性能の飛躍も大きかったので、メジャーだと見ている。たとえば Sonnet 3.5、Opus 4.5 のようなケース
これで Opus 4.5 系列には 4.6、4.7、4.8 の後継が生まれたが、それぞれの改善幅は主張ベースでもかなり緩やかだ
実際に使った 4.6/4.7 は、4.5 の記憶と比べてどの能力が良くなったのかをはっきり捉えられず、体感があまりに曖昧で判断が難しい
自分の好みがすでに飽和したのか、あるいはモデルが自分より賢くなって今後は進歩を感じ取れないのかもしれないし、逆に今の 4.7 のワークフローを 4.5 で回せばすぐ気づく程度の漸進的改善なのかもしれない
研究所側の立場も難しそうだ。もっと強い製品があるならリリースして使えるようにしてほしいが、この流れが続くと実際に改善があっても最終ユーザーにはますます見えにくくなり、見返りのない頻繁な入れ替えのように感じられる可能性が高い
小型モデルから引き出せる取りやすい果実がまだ数桁ぶん残っている
2〜3年以内に 60〜90B モデルがコーディング作業で現在の最高水準を超える可能性はほぼ確実に見える。設計が確定しているわけではなく、おそらく簡単ではないが
一方で 1.2T モデルを学習させるほど意味のある改善がさらに得られるかは、はるかに不確実だ
推論の面では、最近の GRAM 公開を見ると、小型モデルに載せられる推論改善の余地は4桁規模かもしれない
Google、OpenAI、Anthropic は数日で 30B のGRAM ベースモデルを学習でき、このモデルが 1T パラメータを超える今日の最高モデルよりローカル推論で優れる可能性もある。さらにこれを数日で約 600B の MoE モデルに拡張すれば、一般的な雑学知識でも最高モデルに匹敵しうる
1T+ パラメータのモデルはそんなに速く学習させられない。GRAM が実際にどれほど改善するかは大きな変数だが、些細または無意味である可能性は低そうだ
大規模モデルはすでにほとんど何でも答えられる。LLMである以上、すべてを正しく当てることはないだろう
Gemini が Ke$ha の身長や Brittney Spears が最後に刑務所に入った時点を正確に教えるところから、さらに絞り出せる余地は多くなさそうだ
個人的には、4.5 のリリース以降の生産性向上はモデル自体よりもハーネスの改善と、200k から 1M に増えたコンテキストウィンドウのおかげだと感じている。cc、cursor cli、codex、opencode などでそうだった
実際のモデルの「純粋な」知能や良い判断を下す能力は、4.5 以降停滞している印象だ。4.6 は少し良くなったかもしれないが、1M ウィンドウでのインコンテキスト学習効果と区別しづらかったし、4.7 は自分や同僚にはむしろ思慮深さが後退したように感じられ、より悪く怠惰な判断を一貫して下していた
最終ユーザーに公開される新しい制御機能の裏には、ユーザータイプ別にメタ調整できる、はるかに細かな内部サブコントロールがあるのだと思う
より細かな effort 制御、「dynamic workflow」、「fast mode」のような速度制御のことだ。ユーザー向け機能として包装されているが、IPO 後の四半期報告の主要指標を満たすために、コスト、マージン、ARR、ユーザー成長と維持率の間を調整するバックエンドのつまみにも見える
今のところ Opus 4.8 もその方向に進んでいるようだ。使えないほど遅いが、リリース当日のロールアウト問題かもしれない。Opus 4.8 の全体テストは進行中だ
データは https://gertlabs.com/rankings にある
「ユーザーは Opus 4.8 を前バージョン比で緩やかだが体感できる改善だと感じるだろう」という姿勢が新鮮だ
Web UI でadaptive thinkingをオフにできるのも確認したが、これは良い。thinking がうまく動かず、モデル出力がひどくなる問題が多かったからだ
ついにオフにできるようになってよかった。もともといつでも切れたのなら少し気まずいが
主に Web リサーチを見ているが、Opus 4.7 は BrowseComp で Opus 4.6 より後退していて、実使用でもそうだった
Opus 4.8 は 4.7 や 4.6 よりはるかに良くなっており、チャットボットにおいて Web 検索は主要なユースケースの1つだ
他のモデル提供者は xか月ごとに大きなアップデートをするが、うちは x/2 か月ごとに段階的アップデートをする、というように
自分にとってより重要なのは、CC が thinking 関連の 4.6「専用」フラグにどう反応するかだが、今のところ自分の設定を上書きしてはいないようだ
今回の変更で同程度の水準まで上がることを期待したが、実際に使ってみるとまだ違った
ChatGPT なら簡単に検索して事実確認して答えるような単純な事実質問に対して、Claude は新モデルと thinking high でも「良い質問です!」の後に完全に作り話の答えを出してくる。GPT のように自分で検索が必要だと認識せず、基本的な事実でさえ検索しろと明示しなければならない
Claude Mythos Preview の「Opus よりさらに高い知能を持つ新種のモデルをリリースする計画」という部分のほうが、4.8 リリースより面白そうに見える
Project Glasswing の一環として少数の組織がサイバーセキュリティ作業に使用中で、このレベルのモデルには一般公開前により強力なサイバー安全装置が必要だとのこと
IPO が近づいている点も、公開発言に明らかに反映されるはず。公平に言えば、それも彼の責務ではある
モデルが遅れている理由は「安全にしているから」ではなく、「これを大規模に、あるいはコスト効率よくホスティングする方法が分からない」からかもしれない
GPT 5.5 はすでに脆弱性発見で Mythos と同程度に熟達しているように見えた
最後に、非専門家はモデル性能における ハーネスの重要性 を大きく過小評価している。OpenHands は Claude Code よりずっと前からあったが、Claude Code は巧妙な補助方式のおかげで状況を一変させた。Mythos も単なるモデル以上のものである可能性が高い
現在の中国の競合モデルと比べると、Sonnet と Haiku は価格性能比でかなり見劣りしているように見える
だとすると Mythos にも同じことをしていて、私たちが受け取る Mythos はその部分が弱められた版なのだろうかと思う
もっと正確に言えば、Mythos は 2 つのバージョンに分かれ、恐ろしいほうは引き続き大量の書類手続きが必要になりそうだ
/mythos-security-auditのようなものしか受け取れないかもしれない、という示唆に見えるそういう形で普通の人々がアクセス権から排除されないことを願う
thinking level low と high の両方で 自転車に乗るペリカン を生成してみた
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
high の結果のほうが明らかに良い。low と違って自転車フレームの形が合っている
比較用の Opus 4.7 の結果はこちら: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
ハンドルバーが前輪を回しているのではなく、フレームを回している。ハンドルバーは前輪と同じ線上に取り付けられていなければならない
4.9 が私のコメントを読んでくれることを願う
https://www.gianlucagimini.it/portfolio-item/velocipedia/
人間でも自転車をかなりうまく描けないことがある
https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
最前線モデル向けで気に入っているコーディングベンチマークは、1つのファイル(js/html/css)でシンプルなリアルタイムストラテジーゲームを作らせること。
ultracodeモードのClaude Code + Opus 4.8がきちんとやり遂げて、これまでで最高の結果だった。
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
プロンプトは「昔のWarCraft、StarCraft、Command & Conquerのような、シンプルだが動作するRTSゲームを作れ。プレイヤーは建物を建て、ユニットを作り、資源を集め、マップ全体を明らかにしなければならない。AIやマルチプレイヤーは不要。シンプルだが見栄えのよいグラフィックを使え。音はなし。HTML/CSS/JSですべて実装し、単一ファイルにせよ。CDN経由のサードパーティ製js/cssライブラリやフレームワークの使用は可」とのことだった。
ビジュアルスタイルが、自分に作ってくれたものとかなり似ているのも興味深い。
こういうリリースを見て回って、他社が自社モデルをよく見せるために選んだであろう任意の指標をチェリーピックしている人がいるのか気になる。
ベンチマークが800万個くらいあるように感じる。リリースのたびに各モデルが5〜10個をランダムに選んで、1つを除いて全部に勝ったように見せているが、ベンチマックスされた可能性が高いベンチマークをランダムにチェリーピックしたわけではないふりをしているように見える。
正確な方法論は知らないが、Claude/GPTモデルで日常的なプログラミングをするとき、このサイトが報告している結果と定性的な体感は一致していた。
4.7で報告していた指標のうち、4.8ではBrowseComp、CharXiv Reasoning、CyberGym、GPQA Diamond、MCP Atlas、MMMLU、SWE-bench Verifiedが外されている。最後の4つは以前のOpusリリースではほぼ毎回言及されていた。
「5%賢い」とは結局どういう意味なのか? 自分の使用体験は違うはずだ。結局は自分で使ってみるのが一番いい。
Anthropicが内部で特定のベンチマーク改善を目標にしているとは思わない。進歩を可視化するための方法にすぎず、内部にはもっとずっと複雑な指標があるはずだ。
初期のArtificialAnalysis.aiの結果では、まだGPT 5.5のほうが価格対性能比は良さそうに見える。
OpenAIはタスク解決に約50%少ない出力トークンを使っている。
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
Claudeがもっとずっと高くならない限り、乗り換えないと思う。
システムカード102ページで創造的熟達度の評価を見られたのはうれしい。
自分たちの仕事では、複数の最前線AIに必要なAPIを設計してみるよう依頼し、Opus 4.7やGPT-5.5などを比較した。Opus 4.7が最も創造的で知的なAPI設計を出してきて、うれしい驚きだった。特にGPT-5.5が複数のコーディングベンチマークで先行している状況ではなおさらだ。
「創造性」や「独創性」を測る共通ベンチマークがないことを実感したし、そうしたベンチマークはある意味では一般的なIFBenchと衝突するかもしれない。
それでもシステム設計では非常に重要な能力だ。Anthropicがこれを気にかけているのはうれしいし、他モデルと比較できる公開ベンチマークも出てきてほしい。
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
5.5はコーディングでは両者よりずっと優れているが、そのぶん高い。だから4.7に計画/アーキテクチャをやらせ、4.6にコーディングをさせたあと、5.5に批評と修正をさせている。
GPTは指示を受けてそのまま実行するロボットのようで、Opusはたまに本当に良いアイデアを出し、悪いアイデアには反論もする、ほとんど人間のような感じがある。
だから今は、計画/アーキテクチャ/戦略はOpus、純粋なコーディングはGPTと分けている。
エージェント型コーディングでは、GPTが受け取れるトークン余裕が大きいことも助けになっている。
残念ながら、今回のバックエンドリリースや新しい CC バージョンのせいで、Claude Code が完全に壊れてしまったようだ
「thinking blocksを修正できない」というエラーが、長時間実行セッションを文鎮化させている: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
stableブランチでも発生していたClaude にセッションの文鎮化を解く復旧スクリプトを作らせて解決はしたが、環境によって異なるかもしれない
https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
/rewindで復旧して続行できた自分のテストでは、Opus 4.8 は少し悪く、しかも Opus 4.7 よりほぼ 2倍高い
データ抽出テストで失敗したのは驚きだった。3回中2回は当てるが、1回は何らかの値をランダムに null で返す
Trivia/ドメイン特化知識の作業でより多く失敗するのは、ある程度理解できる。モデルは一般知能よりもエージェント型ユースケース向けに、ますます学習されているように見える
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
テストハーネスを再確認中だが、こういう挙動を見せたのは初めてのモデルなので、自分側の問題である可能性は低いと思う
修正: ハーネスは正しいようで、純粋なコーディング作業では性能は同じだ: https://i.snipboard.io/5xbpzY.jpg
“Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
2倍のコストはどこで見えているのか気になる