12 ポイント 投稿者 flyingsquirrel 13 일 전 | 11件のコメント | WhatsAppで共有

Anthropicは、自社の最上位モデルであるClaude Opusのアップグレード版 Claude Opus 4.8 をリリースしました。前バージョンの4.7をベースにベンチマーク性能を改善し、協業能力を強化しながら、価格は据え置かれています。

主な改善点と特徴

  • 性能向上: コーディング、エージェント技術、推論、実務知識タスク全般で、前モデルおよびGPT-5.5などの競合モデルと比べて優れた性能を示します。
  • 正直性(Honesty)の強化: AIが根拠のない主張をしたり、早計に結論を出したりする問題を改善しました。Opus 4.8は不確かな部分を自ら示し、コード内の欠陥を見落とす確率が前モデル比で約4倍低くなりました。
  • 信頼できるエージェント能力: 初期テストの結果、複雑な多段階タスクを実行する際の判断力が鋭くなり、自身のミスを検知したり、計画が妥当でない場合に異議を唱えたりするなど、より優れた協業能力を示します。
  • コスト効率: 「Fast Mode」の速度が2.5倍に向上し、コストは前モデル比で3分の1になりました。

同時に公開された新機能

  • ダイナミックワークフロー(Dynamic Workflows): Claude Codeの研究プレビュー機能で、数百の並列サブエージェントを実行し、大規模コードベースの移行のような複雑な作業を実行できます。
  • 努力制御(Effort Control): ユーザーがClaudeがタスクに投入する努力のレベルを選択できます。高い設定ではより深く考えて高品質な応答を提供し、低い設定ではより速く応答します。
  • Messages APIの更新: システムエントリをメッセージ配列内に含められるようになり、プロンプトキャッシュを壊さずに作業の途中で指示を更新できます。

今後の計画

Anthropicは、Opus級の性能をより低コストで提供するモデルを開発中であり、Project Glasswing を通じてOpusより高い知能を持つ新しいクラスのモデル(Claude Mythos)を準備しています。現在、一部の組織でセキュリティテスト中で、数週間以内にすべての顧客へ公開される予定です。

価格と利用案内

  • 通常モード: 入力 $5 / 1M トークン、出力 $25 / 1M トークン(Opus 4.7と同じ)
  • ファストモード: 入力 $10 / 1M トークン、出力 $50 / 1M トークン
  • モデル名: claude-opus-4-8

11件のコメント

 
jimmy2056 13 일 전

しょっちゅう無駄にハマらされるので、結局は安定している GPT のほうが良さそうです。
Claude の 200ドル版を使っていたけど、GPT 100ドル + Claude 100ドルに移って、
来月からは Claude は 20ドルだけ使うつもりです。どうせレビュー用なのでそんなにたくさん必要でもなくなったし、足りなければ AGY も有料で使っているので、それを使えばいいですしね。

 
slowandsnow 12 일 전

SonnetとHaikuはなぜ見捨てられるんだろう? GPTとの競争ばかり考えているのかな

 
jessyt 13 일 전

fast modeのバリアントは以前より2.5倍高速に動作し、コストは3分の1になったそうです。

 
hhcrux 13 일 전

ClaudeのサブスクをProに落としてGPTを使っているところですが、作業中だったものがあったのでレビューさせてみたら、Proの使用量が10分で全部溶けて止まってしまいました。
すごいな、Claude!

 
dhkd63 13 일 전

午前の間、私の場合は会議や録音の整理に使うスキルがあるので、これを 4.8 で ultracode にして effort を切り替えて使ってみたところ、思ったよりかなり良いですね。個人的な体感では、codex と似た傾向を示している感じです。トークン効率は、まあまだ codex には及びませんが、コンテキストウィンドウに余裕がありますし、さらに workflow の関係でサブエージェント画面も少し変わったのですが、この部分も気に入っています。

 
dunward 13 일 전

4.7 は正直、体感的には使うのがかなり厳しいレベルでしたが、4.8 はどうか改善されていてほしいです。

 
sixmen 13 일 전

ChatGPT/Codex に乗り換えるという人が多いので、慌てて出してきたんじゃないかという気もします..

 
sea715 13 일 전

/effort にすると出てくる効果が面白いです(笑)

 
codufdl 13 일 전

下の Hacker News コメントの翻訳にある「低いところにぶら下がった果実」という表現が何なのかと思って原文を探してみたところ、
low hanging juice to squeeze out of smaller models << これが原文で、
低い位置に実った果実が多い = 簡単に引き出せる潜在力がまだ十分に残っている、くらいの意味に解釈できそうですね

 
iolothebard 13 일 전

もうええやろ、ようけ食べたやろ〜

 
GN⁺ 13 일 전
Hacker Newsの意見
  • Anthropicの最前線モデルで3回目のマイナーバージョンアップは今回が初めてのように思う
    ここでは0.5刻みは非連続に出ていて性能の飛躍も大きかったので、メジャーだと見ている。たとえば Sonnet 3.5、Opus 4.5 のようなケース
    これで Opus 4.5 系列には 4.6、4.7、4.8 の後継が生まれたが、それぞれの改善幅は主張ベースでもかなり緩やかだ
    実際に使った 4.6/4.7 は、4.5 の記憶と比べてどの能力が良くなったのかをはっきり捉えられず、体感があまりに曖昧で判断が難しい
    自分の好みがすでに飽和したのか、あるいはモデルが自分より賢くなって今後は進歩を感じ取れないのかもしれないし、逆に今の 4.7 のワークフローを 4.5 で回せばすぐ気づく程度の漸進的改善なのかもしれない
    研究所側の立場も難しそうだ。もっと強い製品があるならリリースして使えるようにしてほしいが、この流れが続くと実際に改善があっても最終ユーザーにはますます見えにくくなり、見返りのない頻繁な入れ替えのように感じられる可能性が高い

    • 次世代の最前線モデルが最後になっても驚かない
      小型モデルから引き出せる取りやすい果実がまだ数桁ぶん残っている
      2〜3年以内に 60〜90B モデルがコーディング作業で現在の最高水準を超える可能性はほぼ確実に見える。設計が確定しているわけではなく、おそらく簡単ではないが
      一方で 1.2T モデルを学習させるほど意味のある改善がさらに得られるかは、はるかに不確実だ
      推論の面では、最近の GRAM 公開を見ると、小型モデルに載せられる推論改善の余地は4桁規模かもしれない
      Google、OpenAI、Anthropic は数日で 30B のGRAM ベースモデルを学習でき、このモデルが 1T パラメータを超える今日の最高モデルよりローカル推論で優れる可能性もある。さらにこれを数日で約 600B の MoE モデルに拡張すれば、一般的な雑学知識でも最高モデルに匹敵しうる
      1T+ パラメータのモデルはそんなに速く学習させられない。GRAM が実際にどれほど改善するかは大きな変数だが、些細または無意味である可能性は低そうだ
      大規模モデルはすでにほとんど何でも答えられる。LLMである以上、すべてを正しく当てることはないだろう
      Gemini が Ke$ha の身長や Brittney Spears が最後に刑務所に入った時点を正確に教えるところから、さらに絞り出せる余地は多くなさそうだ
    • 4.7 は、ほとんどの用途で前バージョンの4.6に戻さざるを得なかった初めての版だった。4.8 がこれを正してくれることを願う
    • 4.5 と 4.7 の間で、プログラミングのワークフローに意味のある、あるいは目立つ改善を感じた人がいるのか気になる
      個人的には、4.5 のリリース以降の生産性向上はモデル自体よりもハーネスの改善と、200k から 1M に増えたコンテキストウィンドウのおかげだと感じている。cc、cursor cli、codex、opencode などでそうだった
      実際のモデルの「純粋な」知能や良い判断を下す能力は、4.5 以降停滞している印象だ。4.6 は少し良くなったかもしれないが、1M ウィンドウでのインコンテキスト学習効果と区別しづらかったし、4.7 は自分や同僚にはむしろ思慮深さが後退したように感じられ、より悪く怠惰な判断を一貫して下していた
    • より頻繁な段階的リリースは、Anthropic がコストを制御しリソース消費を調整するために使う新機能を展開する目的もありそうだ
      最終ユーザーに公開される新しい制御機能の裏には、ユーザータイプ別にメタ調整できる、はるかに細かな内部サブコントロールがあるのだと思う
      より細かな effort 制御、「dynamic workflow」、「fast mode」のような速度制御のことだ。ユーザー向け機能として包装されているが、IPO 後の四半期報告の主要指標を満たすために、コスト、マージン、ARR、ユーザー成長と維持率の間を調整するバックエンドのつまみにも見える
    • うちのテストでは 4.5/4.6 はおおむね同程度だった。Opus 4.7 はより賢いが、いくつかの性格上の問題のせいで製品として使いにくい
      今のところ Opus 4.8 もその方向に進んでいるようだ。使えないほど遅いが、リリース当日のロールアウト問題かもしれない。Opus 4.8 の全体テストは進行中だ
      データは https://gertlabs.com/rankings にある
  • 「ユーザーは Opus 4.8 を前バージョン比で緩やかだが体感できる改善だと感じるだろう」という姿勢が新鮮だ
    Web UI でadaptive thinkingをオフにできるのも確認したが、これは良い。thinking がうまく動かず、モデル出力がひどくなる問題が多かったからだ
    ついにオフにできるようになってよかった。もともといつでも切れたのなら少し気まずいが

    • そのスイッチはたぶんずっとあった気がするが、オフにしても望む挙動にはならない。thinking 自体を完全に無効化する
    • 新鮮ではあるが、今回はむしろその表現では足りないかもしれない
      主に Web リサーチを見ているが、Opus 4.7 は BrowseComp で Opus 4.6 より後退していて、実使用でもそうだった
      Opus 4.8 は 4.7 や 4.6 よりはるかに良くなっており、チャットボットにおいて Web 検索は主要なユースケースの1つだ
    • こうした小さなリリースは、ユーザーをより段階的なアップデート周期に慣れさせようとしているのだろうかと思う
      他のモデル提供者は xか月ごとに大きなアップデートをするが、うちは x/2 か月ごとに段階的アップデートをする、というように
    • 4.6 から 4.8 extra にモデルを切り替えるとき、Adaptive をオフにする際にたぶん見せかけのバグを踏んだようだったが、もう一度試したら意図どおりに動くようだ
      自分にとってより重要なのは、CC が thinking 関連の 4.6「専用」フラグにどう反応するかだが、今のところ自分の設定を上書きしてはいないようだ
    • Web UI がもっと良くなることを期待していた。価値観の面では Anthropic のほうが OpenAI より好みなので製品を使いたいが、thinking モードの ChatGPT は claude.ai よりかなり良かった
      今回の変更で同程度の水準まで上がることを期待したが、実際に使ってみるとまだ違った
      ChatGPT なら簡単に検索して事実確認して答えるような単純な事実質問に対して、Claude は新モデルと thinking high でも「良い質問です!」の後に完全に作り話の答えを出してくる。GPT のように自分で検索が必要だと認識せず、基本的な事実でさえ検索しろと明示しなければならない
  • Claude Mythos Preview の「Opus よりさらに高い知能を持つ新種のモデルをリリースする計画」という部分のほうが、4.8 リリースより面白そうに見える
    Project Glasswing の一環として少数の組織がサイバーセキュリティ作業に使用中で、このレベルのモデルには一般公開前により強力なサイバー安全装置が必要だとのこと

    • 「より面白い」というより、「Mythos は危険すぎて一般大衆にアクセス権を与えられない」という類いの自己誘発型の悪いニュースが Dario 特有のマーケティングなのでは、という疑いが広くある
      IPO が近づいている点も、公開発言に明らかに反映されるはず。公平に言えば、それも彼の責務ではある
      モデルが遅れている理由は「安全にしているから」ではなく、「これを大規模に、あるいはコスト効率よくホスティングする方法が分からない」からかもしれない
      GPT 5.5 はすでに脆弱性発見で Mythos と同程度に熟達しているように見えた
      最後に、非専門家はモデル性能における ハーネスの重要性 を大きく過小評価している。OpenHands は Claude Code よりずっと前からあったが、Claude Code は巧妙な補助方式のおかげで状況を一変させた。Mythos も単なるモデル以上のものである可能性が高い
    • こうして Claude Pro から最大モデルへのアクセス権を取り上げることになりそう。Opus より大きなモデルを使うには最低でも Claude Max サブスクリプション が必要になるようにしそうだ
    • それよりも、「Opus と同様の機能を多く提供しつつ、より低コストのモデルを開発・リリース中」という部分のほうが興味深い
      現在の中国の競合モデルと比べると、Sonnet と Haiku は価格性能比でかなり見劣りしているように見える
    • Opus 4.7 のリリースノートでは、サイバーセキュリティ能力を意図的に下げたと書かれていた https://www.anthropic.com/news/claude-opus-4-7
      だとすると Mythos にも同じことをしていて、私たちが受け取る Mythos はその部分が弱められた版なのだろうかと思う
      もっと正確に言えば、Mythos は 2 つのバージョンに分かれ、恐ろしいほうは引き続き大量の書類手続きが必要になりそうだ
    • 億万長者や数十億ドル規模の企業でなければ、制限され弱体化した Claude Code スラッシュコマンド /mythos-security-audit のようなものしか受け取れないかもしれない、という示唆に見える
      そういう形で普通の人々がアクセス権から排除されないことを願う
  • thinking level low と high の両方で 自転車に乗るペリカン を生成してみた
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    high の結果のほうが明らかに良い。low と違って自転車フレームの形が合っている
    比較用の Opus 4.7 の結果はこちら: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

    • 自転車フレームの形が合っているわけではない。ハンドルバー が間違っている
      ハンドルバーが前輪を回しているのではなく、フレームを回している。ハンドルバーは前輪と同じ線上に取り付けられていなければならない
      4.9 が私のコメントを読んでくれることを願う
    • 誰かが自転車の話を出すたびにこのリンクを共有することになりそうだが、このスレッドではまだ出ていなかったので貼っておく
      https://www.gianlucagimini.it/portfolio-item/velocipedia/
      人間でも自転車をかなりうまく描けないことがある
    • 「high thinking」レベルでヘルメットが追加されるのは良い感じ。常に賢明な選択だ
    • すべての thinking レベルでのペリカンの結果。low, medium, high, xhigh, max の順
      https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
    • ヘッドチューブのないフレームをどうして「正しい形」と言えるのか分からない
  • 最前線モデル向けで気に入っているコーディングベンチマークは、1つのファイル(js/html/css)でシンプルなリアルタイムストラテジーゲームを作らせること。
    ultracodeモードのClaude Code + Opus 4.8がきちんとやり遂げて、これまでで最高の結果だった。
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    プロンプトは「昔のWarCraft、StarCraft、Command & Conquerのような、シンプルだが動作するRTSゲームを作れ。プレイヤーは建物を建て、ユニットを作り、資源を集め、マップ全体を明らかにしなければならない。AIやマルチプレイヤーは不要。シンプルだが見栄えのよいグラフィックを使え。音はなし。HTML/CSS/JSですべて実装し、単一ファイルにせよ。CDN経由のサードパーティ製js/cssライブラリやフレームワークの使用は可」とのことだった。

    • このテスト用のランキング表のようなものがあるのか気になる。Opus 4.8とGPT 5.5にそれぞれ100点満点で点を付けるなら何点だろう?
    • コードがほとんど圧縮済みコードのように見える。変数名が短く、空白を最小化しようとしている形式に見えるが、自分でこういう圧縮された形式で書いたのだろうか?
    • プロンプトまで共有してくれて助かる。自分もClaudeに似たようなものを作らせてテストしてきた。
      ビジュアルスタイルが、自分に作ってくれたものとかなり似ているのも興味深い。
    • このベンチマークは気に入った。成果物をGitHub Pagesに置いておけば、みんながゲームを直接試せる。
    • こういうベンチマークアプリのコレクションをどこに保存しているのか気になる。特にこうしたユースケースで、モデルごとの相対的なコスト差を見てみたい。
  • こういうリリースを見て回って、他社が自社モデルをよく見せるために選んだであろう任意の指標をチェリーピックしている人がいるのか気になる。
    ベンチマークが800万個くらいあるように感じる。リリースのたびに各モデルが5〜10個をランダムに選んで、1つを除いて全部に勝ったように見せているが、ベンチマックスされた可能性が高いベンチマークをランダムにチェリーピックしたわけではないふりをしているように見える。

    • https://arena.ai/leaderboardはかなり良いランキング提供元に感じる。
      正確な方法論は知らないが、Claude/GPTモデルで日常的なプログラミングをするとき、このサイトが報告している結果と定性的な体感は一致していた。
    • 今回は指標を6個しか入れていないのが興味深い。Opus 4.7は12個、4.6は13個だった。
      4.7で報告していた指標のうち、4.8ではBrowseComp、CharXiv Reasoning、CyberGym、GPQA Diamond、MCP Atlas、MMMLU、SWE-bench Verifiedが外されている。最後の4つは以前のOpusリリースではほぼ毎回言及されていた。
    • どのベンチマークもある程度は割り引いて見るべきだ。自分はあまり使わない。
      「5%賢い」とは結局どういう意味なのか? 自分の使用体験は違うはずだ。結局は自分で使ってみるのが一番いい。
      Anthropicが内部で特定のベンチマーク改善を目標にしているとは思わない。進歩を可視化するための方法にすぎず、内部にはもっとずっと複雑な指標があるはずだ。
    • これに関連して、すべてのベンチマークを1つの大きなグリッドにまとめてくれるベンチマーク集約サイトがあるのか気になる。
    • 少なくともOpenAIのように競合がいないふりはせず、各ベンチマークで競合モデルも見せている。
  • 初期のArtificialAnalysis.aiの結果では、まだGPT 5.5のほうが価格対性能比は良さそうに見える。
    OpenAIはタスク解決に約50%少ない出力トークンを使っている。
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • Codexは新バージョンが出るたびに試しているが、自分には合わない。だから全員に当てはまる話ではない。
      Claudeがもっとずっと高くならない限り、乗り換えないと思う。
  • システムカード102ページで創造的熟達度の評価を見られたのはうれしい。
    自分たちの仕事では、複数の最前線AIに必要なAPIを設計してみるよう依頼し、Opus 4.7やGPT-5.5などを比較した。Opus 4.7が最も創造的で知的なAPI設計を出してきて、うれしい驚きだった。特にGPT-5.5が複数のコーディングベンチマークで先行している状況ではなおさらだ。
    「創造性」や「独創性」を測る共通ベンチマークがないことを実感したし、そうしたベンチマークはある意味では一般的なIFBenchと衝突するかもしれない。
    それでもシステム設計では非常に重要な能力だ。Anthropicがこれを気にかけているのはうれしいし、他モデルと比較できる公開ベンチマークも出てきてほしい。
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • 自分の体感でも4.6のほうが4.7より良いコーダーに思える。4.7は戦略的思考がはるかに優れていて、5.5より全体として良いアーキテクチャ感覚を保っている。
      5.5はコーディングでは両者よりずっと優れているが、そのぶん高い。だから4.7に計画/アーキテクチャをやらせ、4.6にコーディングをさせたあと、5.5に批評と修正をさせている。
    • 自分も似た感覚だ。計画、戦略、アーキテクチャのような作業は、GPT-5.5よりOpus 4.7のほうがずっと良い。
      GPTは指示を受けてそのまま実行するロボットのようで、Opusはたまに本当に良いアイデアを出し、悪いアイデアには反論もする、ほとんど人間のような感じがある。
      だから今は、計画/アーキテクチャ/戦略はOpus、純粋なコーディングはGPTと分けている。
      エージェント型コーディングでは、GPTが受け取れるトークン余裕が大きいことも助けになっている。
  • 残念ながら、今回のバックエンドリリースや新しい CC バージョンのせいで、Claude Code が完全に壊れてしまったようだ
    「thinking blocksを修正できない」というエラーが、長時間実行セッションを文鎮化させている: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • この問題は 4.7 の stable ブランチでも発生していた
      Claude にセッションの文鎮化を解く復旧スクリプトを作らせて解決はしたが、環境によって異なるかもしれない
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • CC のアップデートは、リリース前にテストしていないように見える。製品を使う社内チームや公開フィードバックがテストの役割を果たしている
    • 役に立つかは分からないが、軽いケースのいくつかでは /rewind で復旧して続行できた
    • 自分も同じだ。新モデルをロールアウトするまさにそのタイミングでこういうことが起きるのは、あまり良く見えない
    • Claude と仕事をする魅力の一部だ。何か新しくリリースされるたびに、自分のものが全部壊れる
  • 自分のテストでは、Opus 4.8 は少し悪く、しかも Opus 4.7 よりほぼ 2倍高い
    データ抽出テストで失敗したのは驚きだった。3回中2回は当てるが、1回は何らかの値をランダムに null で返す
    Trivia/ドメイン特化知識の作業でより多く失敗するのは、ある程度理解できる。モデルは一般知能よりもエージェント型ユースケース向けに、ますます学習されているように見える
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • なぜか全部が2倍だ。コスト2倍、平均応答時間2倍、推論および出力トークン2倍だ
      テストハーネスを再確認中だが、こういう挙動を見せたのは初めてのモデルなので、自分側の問題である可能性は低いと思う
      修正: ハーネスは正しいようで、純粋なコーディング作業では性能は同じだ: https://i.snipboard.io/5xbpzY.jpg
    • ブログ記事には価格は 4.7 と同じだと書いてなかったか?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      2倍のコストはどこで見えているのか気になる
    • 新モデルのリリースは、価格を上げる新しいやり方になったな haha