20 ポイント 投稿者 GN⁺ 2026-02-06 | 9件のコメント | WhatsAppで共有
  • Anthropicの最新AIモデルで、コーディング能力と長時間タスクの継続性が向上し、1Mトークンのコンテキストウィンドウをベータでサポート
  • 主要ベンチマークで業界最高水準のスコアを記録し、GPT-5.2より約144 Eloポイント優位
  • コードレビュー・デバッグ大規模コードベース処理財務分析・文書作成など、実務中心の作業で性能を強化
  • Adaptive thinkingcontext compactioneffort調整などの開発者向け制御機能を追加し、長時間実行型エージェントの運用を容易化
  • 安全性評価でもエラー・悪用・過剰拒否率が低い結果を示し、高性能と安全性を両立したモデルと評価

Claude Opus 4.6 の主な改善点

  • Opus 4.6は前バージョンと比べて、計画能力、エージェントの持続性、コード品質管理が向上したモデル
    • 大規模コードベースでより安定して動作し、自身のエラーを検出・修正する能力を強化
    • 1Mトークンのコンテキストウィンドウ(ベータ)により、長文・複合タスクを処理可能
  • 日常業務での実用性も拡大し、財務分析・リサーチ・文書・スプレッドシート・プレゼンテーション生成など幅広い作業に対応
  • Cowork環境でマルチタスクを自律的に実行でき、ユーザーに代わって複合業務を処理

ベンチマークと性能評価

  • Terminal-Bench 2.0で最高スコア、Humanity’s Last Examでもすべてのフロンティアモデル中トップ
  • GDPval-AA評価でGPT-5.2より約144 Eloポイント、Opus 4.5より190ポイント高い性能
  • BrowseCompテストでも最高性能を記録し、オンライン情報探索能力を強化
  • MRCR v2 (1M variant) で76%のスコアを記録し、Sonnet 4.5の18.5%と比べて大幅に向上
  • 長文コンテキストの維持力と情報追跡能力が改善され、context rot現象を緩和

初期利用体験とパートナーからのフィードバック

  • 社内エンジニアリングテストで複雑な問題解決力と判断力が向上
    • 難しい問題では深い思考を繰り返し、より良い結果を導出
    • 単純な作業では過剰な思考で遅延する可能性があり、/effortパラメータで調整可能
  • 初期パートナーは、Opus 4.6が自律実行能力複雑な要求処理チーム協業支援で優れていると評価
    • 大規模コードベース探索、並列サブタスク実行、ブロッカー特定などで高精度な性能
    • 法務・金融・技術コンテンツ分析で高い精度(例: BigLaw Bench 90.2%)
    • 実際のテストでは40件中38件のサイバーセキュリティ調査でOpus 4.5より優れた結果
    • 数百万行のコード移行を半分の時間で完了した事例を報告

安全性とセキュリティの強化

  • 自動化された行動監査で、欺瞞・迎合・悪用への協力といった非整合的行動の比率が低い
  • **過剰拒否率(over-refusal)**が最も低いClaudeモデル
  • ユーザー福祉、危険な要求の拒否、隠れた有害行動の検出など、新しい安全性評価を実施
  • 解釈可能性研究を通じて、モデル内部の動作原因を分析し潜在的な問題を検出
  • サイバーセキュリティ能力の強化に伴い、6種類の新たなセキュリティプローブを導入し、悪用検出を強化
  • 防御的活用として、オープンソースの脆弱性検出・パッチ適用を支援し、今後はリアルタイムの悪用遮断を計画

製品およびAPIアップデート

  • Claude Developer Platformで以下の機能を追加
    • Adaptive thinking: モデルが状況に応じて深い思考を行うか自動で判断
    • Effortレベル: low、medium、high(デフォルト)、maxの4段階を提供
    • Context compaction(ベータ) : 会話が長くなった際に古いコンテキストを要約・置換
    • 1Mトークンコンテキスト(ベータ)および128k出力トークンをサポート
    • US-only inferenceオプションを提供(1.1倍料金)
  • Claude Codeagent teams機能を追加し、複数エージェントが並列で協業可能
  • Claude in Excelは、非構造化データの構造化や多段階変更処理の能力を向上
  • Claude in PowerPoint(リサーチプレビュー)は、スライドテンプレート・フォント・レイアウトを認識し、ブランドの一貫性を維持

提供状況と価格

  • Opus 4.6はclaude.aiAPI、主要クラウドプラットフォームですぐに利用可能
  • APIモデル名はclaude-opus-4-6、価格は**$5/$25 per million tokens**で従来と同じ
  • 200kトークン超のプロンプトにはプレミアム料金($10/$37.50 per million tokens)を適用

結論

  • Claude Opus 4.6は、長期コンテキスト処理、自律的なエージェント作業、高度な推論能力において大きな飛躍を遂げた
  • 性能・安全性・開発者制御性をすべて強化したモデルとして、実務向けAIツールの新たな基準を提示

9件のコメント

 
heim2 2026-02-06

Maxを使っているけど、なんだかトークンをたくさん使うほど得した気分になる……使わないともったいない……

 
duse0001 2026-02-06

ネットで出回っていた値下げの話は適用されなかったようですね(泣)

 
wegaia 2026-02-06

加入者は上限到達がものすごい速さで来るという書き込みがRedditに続々と上がっていますね。
やっている仕事もあるので、そのまま4.5を使い続けています

 
duse0001 2026-02-06

APIの価格が下がれば自然と週間上限も上がるだろうと期待していたのですが、残念です… 200ドルプランの週間上限にはあまり余裕がないので…。

 
princox 2026-02-06

うっ、高すぎますね…。Anthropicはトークンをばらまいてくれ…!!

 
hmmhmmhm 2026-02-06

おお、ついに~~~~

 
princox 2026-02-06

Sonnet 5を期待していたのに、Opus 4.6だったんですね(笑)

 
GN⁺ 2026-02-06
Hacker Newsの意見
  • 自転車のフレームは少しゆがんでいるが、ペリカン自体は素晴らしい
    絵はここで見られる

    • ペリカンの絵にオーバーフィットしているのではないかと気になる
    • generate のような単語選びがモデルの結果に影響するのか気になる
      ペリカンの両脚が同じ側にあることにはすぐ気づいたが、実際にはそうではないことを Wikipedia で確認した
      プロンプトを繰り返し修正して、より現実的な結果を得られるかも実験したのか気になる
    • 実際、大半の人も自転車を正しく描けない
      フレーム構造や幾何学的比率をよく間違える
    • アニメーション版もある
      リンク
    • こうした出力物が最終的にモデル学習に再び入り、ベンチマークを通過するようになる時点が来るのではないかと思う
  • GPT‑5.3 CodexTerminal Bench で 77.3% と圧倒的な性能を示した
    わずか35分で記録が破られたのは驚きだ

    • モデル性能が時間帯やサーバー負荷によって変わるのに、こうしたベンチマークの信頼性を信じてよいのか疑問だ
      もしかすると発売直後は最高性能で動かし、その後はコスト削減のために落としているのではないかと気になる
    • 幅広いベンチマークリポートがないので、benchmaxxing に戻ったのではないかと気になる
      実際に使ってみてから意見を共有したい
    • スコアが10ポイントも上がったのは大きな変化だが、実際の使い心地でも質的な差が感じられるのか気になる
      もしかすると、もうベンチマークは飽和状態に達しているのではないかと思う
    • Claude swe-bench は 80.8、Codex は 56.8 なので、依然として Claude 4.6 が全体的には優勢に見える
  • Claude Code のリリースノート要約
    Opus 4.6 の追加、multi-agent 協業機能、自動メモリ記録、部分会話要約、VSCode 改善など、さまざまな更新が含まれている

    • 「Claude が作業中に自動で記憶を記録して呼び出す」という部分が興味深い
      メモリ機能ドキュメント を見ると、Google Antigravity の Knowledge アーティファクト に近い概念のようだ
  • 議論では2つのことが混同されていると思う
    1つ目はトークン単価ベースの収益性、2つ目はモデルのライフサイクル経済学
    推論単価は利益が出ていても、モデル全体のプログラムとしては依然赤字である可能性がある
    本当の問いは「モデルがどれだけ長く競争力を保てば経済的に成立するのか」だ

    • worse is better を覚えておくべきだ
      最高でなくても十分に良く、乗り換えコストが高ければ市場を支配できる
      初期には損を受け入れてでも、特定のドメイン(例: コーディング) を中心に市場を押さえるのは合理的かもしれない
    • API料金プラン基準では、ある程度の利益は出ていそうだ
      ただし使用量が20倍増えるプランは持続可能性に疑問がある
      今のvibe-coding ルネサンスがこうしたコスト構造で維持できるのかは分からない
    • Dario がポッドキャストで語っていたように、モデルは寿命全体で見れば収益性がある
      年単位の損益で見るのは AI 企業の性質上あまり適切ではない
    • 本当に興味深いのは「月額200ドルのプランが補助されているのか」だ
      これが現在のエージェント型コーディングブームを支えている
      おそらく多少は補助されているが、長期的には2倍程度に値上がりする可能性がある
  • 1M コンテキストウィンドウが追加されたのはとてつもないアップグレードで、とても満足している

  • Anthropic の戦略はいまだによく分からない
    大衆市場を狙うようなマーケティングをしているが、実際の強みはコーディング中心
    一般的な調査や情報探索では ChatGPT や Gemini のほうがずっと深く、表現も良い
    「憲法」や「人権」といった人間性マーケティングをしているが、むしろ最も取引的に感じられる
    それでもコーディング用としては素晴らしいので、引き続き有料で使っている

    • コード以外の一般会話でも Claude はかなりよく動く
      技術系でない友人たちも ChatGPT から Claude に移り、また戻ったケースは見ていない
      8か月前までは API でしか実用的でなかったが、今はずっと良くなっている
    • 英語以外の言語では品質が著しく落ちる
      私はチェコ語話者だが、Claude は単語をでっち上げ、Grok はロシア語で返答することさえある
      コーディングには良いが、一般会話用としては使えない
    • モデルが日常向きではない
      エージェント型タスクやツール使用には向いているが、日常的な質問には使わない
  • Opus 4.6 がインストール時に表示されなかったが、インストールコマンドを再実行したら現れた(v2.1.32)
    インストールガイド

    • すでに使っている
  • AI/LLM の運用コストが実際に下がっているのか気になる
    「エージェントチーム」という概念は格好いいが、複数モデルを同時に回すとコストがかさみ、現実的には難しいと感じる

    • トークン当たりのコストは着実に下がっている
      OpenAI はエンジニアリング最適化によって o3 の価格を 1/5 に下げ、他社も同様の削減効果を得ている
      以前の「すべてのリクエストで赤字になる」という話は事実ではない
    • その噂は繰り返されているが、実際には推論単価が原価を下回るはずはないと思う
      会社全体としては R&D や訓練費で赤字でも、API 利用自体は利益になっている
      DeepSeek のようなオープンモデルでも、ずっと低価格で収益を出している
    • 実データを見る限り、赤字のはずがない
      たとえば Claude 4(約400Bパラメータ)は DeepSeek V3(680B)よりはるかに高い
      Claude は入力 $1/M、出力 $5/M に対し、DeepSeek は入力 $0.4/M、出力 $1.2/M
      この差は Anthropic が訓練費を回収しなければならないからだ
      DeepSeek 価格Claude 価格
    • 実際の損益計算は難しく、減価償却やモデル寿命のような不確実性が大きい
      単純に推論収益だけを見れば利益だが、全体コストで見ればそうでない可能性もある
    • AIエージェントの活用度はまだ低い
      コーディング補助として使っているが、しばしば軌道修正が必要だ
      それでも熟練人材を雇うよりはるかに安い
  • We build Claude with Claude という文句はかなり興味深い

    • Claude Code には 6000 件以上のオープンイシューがある
      60日間非アクティブだと自動整理されるのに、それでも増え続けている
    • 非常に成功した製品だと思う
      その文句は偏見を示している以外には大きな意味はない
    • dogfooding の重要性を示す事例だと思う
      自分で使うことが最高の品質改善方法だ
    • CC のサンドボックス化はほとんど冗談レベルだ
      今のようにラッパーが急増している理由でもあり、いつかセキュリティ事故が起きそうだ
    • だから Claude Code がReact アプリをターミナルに出力する構造なのも説明がつく
  • Opus 4.6 を試してもらうために50ドル分のクレジットを追加提供している
    使用量ページからすぐ受け取れる
    おそらくトークン使用量の増加を見込んでいるか、モデルの宣伝目的だろう