9 ポイント 投稿者 GN⁺ 2026-02-18 | 1件のコメント | WhatsAppで共有
  • コード作成、コンピュータ操作、長期推論、エージェント計画、知識労働、デザインなど全領域で性能が向上したAnthropicの最新Sonnetモデル
  • 1Mトークンのコンテキストウィンドウをサポートし、Sonnet 4.5と比べて一貫性・命令遂行・コード品質が大幅に改善
  • Opus 4.5級の知能をより低コストで提供し、実務・文書理解・フロントエンド設計などで人間レベルの結果を示す
  • OSWorldベンチマークでコンピュータ操作能力が継続的に向上し、プロンプトインジェクション耐性も強化
  • 開発者と企業が高コストモデルなしでもフロンティア級の推論とコード品質を活用できるようになった点が中核

Claude Sonnet 4.6概要

  • Sonnet 4.6はAnthropicの最も強力なSonnetシリーズモデルであり、コーディング・コンピュータ操作・長期推論・知識労働・デザインなど全般的な能力をアップグレード
    • **1Mトークンのコンテキストウィンドウ(ベータ)**をサポートし、大規模コードベースや長い文書を一度に処理可能
  • FreeおよびPro料金プランのユーザーにデフォルトモデルとして適用され、価格はSonnet 4.5と同じく100万トークンあたり$3/$15を維持
  • 初期ユーザーはSonnet 4.6をSonnet 4.5より圧倒的に好み、一部はOpus 4.5よりも好む
  • 安全性評価の結果、従来モデルより安全、または同等水準であり、「温かく正直で向社会的な性格」を示したと評価

コンピュータ操作能力

  • Sonnet 4.6は人のようにコンピュータを操作できるモデルへと進化
    • Chrome、LibreOffice、VS Codeなど実際のソフトウェアを仮想環境で操作し、OSWorldベンチマークで評価
  • 16か月にわたる継続的な性能向上により、複雑なスプレッドシートの探索多段階ウェブフォームの作成などで人間レベルの能力を確認
  • 依然として最高熟練の人間には及ばないが、作業効率の向上速度は非常に速い
  • プロンプトインジェクション攻撃に対する防御力がSonnet 4.5より大幅に改善され、Opus 4.6と類似した水準の安全性を確保

性能評価とベンチマーク

  • Sonnet 4.6はOpus級の知能をより低コストで提供し、さまざまなベンチマークで全般的に向上
    • Claude Codeテストではユーザーの70%がSonnet 4.6を選好し、コード修正時の文脈理解と重複最小化能力が向上
    • Opus 4.5比で59%の選好、過剰設計や怠慢傾向が減少し、命令遂行の正確性が向上
  • Vending-Bench Arenaでは長期経営シミュレーションの実行中、初期投資後に後半収益へ集中する戦略で競合モデルを上回る
  • OfficeQAでOpus 4.6と同等の文書理解力、Financial Services Benchmarkで回答一致率が上昇
  • 保険ベンチマークで94%の正確度Boxテストで15%向上した深い推論性能を記録
  • Rakuten AIテストで最高水準のiOSコード生成、現代的ツーリング活用およびアーキテクチャ品質が改善

製品およびプラットフォーム更新

  • Claude Developer Platformadaptive thinkingextended thinking、**context compaction(ベータ)**をサポート
    • 古い文脈を自動要約し、有効コンテキスト長を増加
  • APIツール更新:
    • web searchfetchが自動でコードを作成・実行し、検索結果をフィルタリング
    • code executionmemoryprogrammatic tool callingtool searchなどの機能を一般提供
  • Claude in ExcelアドインでMCPコネクタをサポートし、S&P Global・LSEG・PitchBookなど外部データと連携可能
  • Sonnet 4.6はextended thinkingなしでも高い性能を維持し、Sonnet 4.5ユーザーには移行を推奨
  • Opus 4.6は引き続き、最も深い推論が必要な作業(コードリファクタリング、マルチエージェント調整など)に適する

利用可能な経路

  • Sonnet 4.6はすべてのClaude料金プランClaude CoworkClaude CodeAPI、主要クラウドプラットフォームで利用可能
  • 無料プランもSonnet 4.6にアップグレードされ、ファイル作成・コネクタ・スキル・コンパクション機能を含む
  • 開発者はclaude-sonnet-4-6モデル名を通じてClaude APIですぐに利用可能

主な数値と評価指標(脚注要約)

  • OSWorld: 実際のソフトウェアベースのコンピュータ作業評価で、Sonnet 4.6は「thinking off」状態で測定
  • SWE-bench Verified: 10回平均80.2%のスコア
  • ARC-AGI-2: 最大努力モードで60.4%を達成
  • MMMU-Pro: 評価方式改善後にスコアを調整
  • Humanity’s Last ExamBrowseCompなどさまざまな実験でツール使用・ウェブ検索・コンテキスト圧縮機能を有効化した状態でテストを実施

1件のコメント

 
GN⁺ 2026-02-18
Hacker Newsの反応
  • コンピュータ利用に焦点を当てている点が印象的。それだけ価値が大きいと判断しているのだろう。ただし安全性については依然として疑問が残る。彼らの自己評価によれば、自動攻撃システムが8%の確率で単一試行による侵入に成功し、無制限に試行した場合は50%まで成功したという。この数値は受け入れがたい。何か自分の理解が間違っているのでなければ、これは実運用不可能なレベルだ
    安全性評価PDF

    • この技術の目標は、事実上コンピュータI/Oに関わる労働の独占だ。SWEだけでなく、大半のオフィスワーカーも対象になる。1人で3人分の仕事をこなせるようにして、人員削減を促す。企業からすれば同じ売上を維持しながら人件費を1/3にできるのだから、断る理由はない。しかしこの構造では、誰でもLLMでビジネスを作れるようになり、結局は競争過多で利益率がゼロに収束する。皆が同じモデルを使えば差別化は消える。むしろ強力なオープンソースモデルでさえ社会的流動性を弱めかねない
    • 8%という数値は、むしろ驚くほど良好だと思う。重要なのはモデル自体より運用環境の制御装置だ。実サービスでは監視とキルスイッチが必須だ。モデルが「十分に安全」であることは必要条件にすぎず、十分条件ではない
    • これは誰も言いたがらない核心的な問題だ。安全性が解決しない限り、大規模な労働代替は不可能だ。要約や補助レベルの利用なら問題ないが、自律的な意思決定を任せると法的リスクが爆発する。結局、AI企業はこの問題を解決できなければ資金が尽きるだろう。今の流れでは、AIは検索やスペルチェッカーのような有用な道具として残るだろうが、大規模な雇用代替は実現しなさそうだ
    • 実際には、単純で反復的な社内アプリ自動化のような場面では有用かもしれない。たとえば毎日同じWebアプリにログインしてカレンダーを読み、ボタンを押す作業などだ。こうした環境では攻撃者がいないため、安全性の問題はほぼ消える
    • 8%と50%という数値は気がかりだが、これは**「コンピュータ利用環境」**での結果だ。コーディング環境では拡張思考をオンにした状態で0.0%だったという。つまり、まだ実験的な領域だ
  • 個人の詩集約900編をSonnet 4.6に入れてテストしたが、Opus 4.6と比べると大きな差がある。Opus 4.6は驚くべき分析を見せたが、Sonnet 4.6は依然として幻覚と誤りが多い。コーディングテストでも似た印象だった。Opusと比べるとかなり物足りない

    • 久しぶりに詩テストを見られて嬉しいという反応。こうした分析をまとめて整理してくれるとよいという意見
    • Opus 4.6はコード作成で生産性が3倍以上向上する。プロジェクト全体を責任感を持って扱い、ユーザーの意図をよく把握する。以前のバージョンのようにこっそり近道を選んだり、結果を台無しにしたりしない
  • Sonnet 4.6は依然として**「洗車場問題」**を間違える。元の質問をそのまま入力したところ、「歩いて行け」と答えた。いくつか変形も試したが、似たような失敗を見せた

    • 自分のテストでは逆に「運転して行け」と即答した。「洗車に行くのだから車が必要だ」という調子で断定的だった。おそらく異なるバージョンが提供されていたのだろう
    • こうした回答の両極端さが興味深い。自信に満ちた誤りで、典型的な幻覚パターンだ
    • ある回答では「車を押して行け」と提案した。共有リンク
    • 別の回答では「歩いて行け、30秒の距離だ」とし、環境と健康を理由に挙げていた。拡張思考はオフの状態だった
    • この質問は今後ベンチマークテストとして頻繁に使われそうだ
  • 「競争は消費者にとって良い」という言葉を実感する。市場競争が激しいほど成果物は良くなる

    • ただし今のAI競争は**「無防備な軍拡競争」**のようにも見える。勝者総取りの構造なので、皆が損をしながら投資している。過剰投資によって社会全体では非効率かもしれない
    • GPT-2が2019年に「危険なので公開不可」とされていたことを思うと、ChatGPTの公開がこの競争を引き起こす契機だった
    • すべての市場が完全競争のように機能すると信じるのは危険だ。実際には独占・情報の非対称性が多い
    • 今のAI市場は、人類史上もっとも激しい競争構造の一つだ。モデルをわざと性能の低いものにしているという陰謀論には説得力がない
    • 最終的に2社だけが残れば、収益回収の段階が来るだろう
  • 「ヘリコプター洗車場」テストが最高だった。Sonnet 4.6は「歩いて行け」と答えたが、アメリカ人の短距離運転習慣を風刺したような回答で面白かった

    • このテストが一番気に入っているという反応。モデルがReddit風のユーモアデータで訓練されている感じがするとのこと
  • Sonnet 4.6がOpus 4.5レベルの性能だという点に驚いた。進歩の速度は1990年代のコンピューティング性能向上のペースを思い起こさせる

    • 本当に興味深いのは性能向上よりも下限の上昇だ。Opus級の推論をSonnetの価格とレイテンシで得られるのは革新的だ。6〜9か月ごとに、同じ知能単位を半分の計算コストで得ているようなものだ
    • 「1990年代の速度」という言葉に、「RAM価格もあの時代レベルだ」という冗談が続く
    • simonwの代わりに「自転車に乗るペリカンSVG」を生成して共有した。画像リンク
    • OpusがNYCの夜景写真を誤って描写したという事例もある。Mistralの方が正確だった。OpenAIはURLアップロードをブロックし、GeminiはVertexAIに接続された。Langchain環境でテストした
    • システムカードによれば、Sonnet 4.6はオフィス作業と財務分析でOpus 4.6より優れていると明記されている
  • Sonnet 4.5の価格は$3/$15 per million tokensだが、この価格を受け入れる人がどれだけいるのか疑問だ。オープンウェイトモデルが急速に追いついており、はるかに安い

    • 自分はハイブリッドアプローチを試している。GLM5で大半を処理し、最後の段階でOpus/Sonnetにバグチェックをさせる
    • 自分の簡単なベンチマークでは、Claude 4.6は無料のStepfun 3.5より劣っていた。aibenchy.com参照。依然として指示追従の正確性が低い
    • 結局、「かなり良い」と「SOTA」の差をどれだけ価値あるものと見るかの問題だ。誤りの多いモデルを使うこと自体も結局はコスト
    • Claudeのような文脈推論に強いモデルを好む人もいる。GLMは細かく明示する必要がある
  • Opus/Sonnet 4.6対応をllm.datasette.ioプラグインに追加していたせいで、ペリカン画像を作るのが遅れた。出来上がりはOpus 4.5レベルで、立派なシルクハットをかぶったバージョンだった
    関連ブログ

    • 別の試行でもそのシルクハットのペリカンを見たというコメントがある
  • ここ数日Sonnet 4.5でテストしていたが、会話が不思議なほど興味深く一貫性があった。
    個人設定で「客観的事実と批判的分析を優先し、感情的共感は禁止」と入れたところ、本当によく従った。ChatGPTも似たように反応する

  • 複数のユーザーが、Opus 4.6は4.5よりトークンを5〜10倍多く消費すると報告している。Issueリンク。公式回答はまだない。なので4.5を使い続けるつもりだ

    • 問題に遭遇している人だけが声を大きくしがちだ。自分は4.6の方が速くてツール呼び出しにも積極的なので満足している。reasoning levelをmediumに下げれば、過剰な思考を減らせる
    • 自分の経験では、Opus 4.5は計画堅持型、4.6は適応的な探索型だ。簡単な問題では非効率だが、難しい問題でははるかに速い
    • /modelsでreasoning levelを確認できる。highに設定するとトークン使用量が急増する
    • 自分も数日で月間予算を使い切ってしまった
    • 自分の実験では、4.6は4.5より15〜45%ほどトークンを多く使用した。ただし、これは不完全なプロンプトで推論を要求した場合だった。よく書かれたタスクでは大きな差はない。Sonnet 4.6のreasoning tokenは以前より構造化されているが、次第に冗長になる傾向がある。Googleモデルに似たスタイルだ