4 ポイント 投稿者 GN⁺ 14 일 전 | 1件のコメント | WhatsAppで共有
  • 高度なソフトウェアエンジニアリング性能が強化され、複雑で長時間にわたる作業を高い一貫性と精度で処理
  • 視覚認識とマルチモーダル理解力が向上し、高解像度画像、技術ダイアグラム、化学構造など複雑な視覚情報を分析可能
  • サイバーセキュリティ保護機構を内蔵し、高リスクな要求を自動検知・遮断、正当なセキュリティ研究者はCyber Verification Programに参加可能
  • Effort制御、Task Budget、/ultrareviewコマンドなどの新機能により、長期作業の効率とコード品質検証能力を改善
  • Opus 4.6比で13%の性能向上と高い信頼性を達成し、Anthropicはこれを基盤にMythos級モデルの安全な公開を準備中

Claude Opus 4.7 概要

  • Claude Opus 4.7は、Opus 4.6比で高度なソフトウェアエンジニアリング性能が大幅に向上したモデルで、複雑かつ長時間実行される作業を高い一貫性と精度で処理
  • ユーザーは従来よりも難易度の高いコーディング作業を信頼して委任でき、モデルは自己検証後に結果を報告
  • 視覚認識能力が強化され、高解像度画像、インターフェース、スライド、文書などで高品質かつ創造的な能力を発揮
  • AnthropicのClaude Mythos Previewと比べると汎用能力は低いものの、各種ベンチマークでOpus 4.6を上回る結果を記録
  • すべてのClaude製品群とAPI、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで利用可能で、価格はOpus 4.6と同一

サイバーセキュリティ関連の措置

  • AnthropicはProject Glasswingを通じてAIのサイバーセキュリティ上のリスクと利点を公開し、Mythos Previewの公開を制限しつつ、セキュリティ実験はまずより強力でないモデルで実施する方針を示した
  • Opus 4.7はその最初のモデルであり、禁止または高リスクなサイバーセキュリティ要求を自動で検知・遮断する保護機構を含む
  • 実際の配備データを基に、今後Mythos級モデルの広範な公開を準備中
  • 正当なセキュリティ研究者(脆弱性分析、ペネトレーションテスト、レッドチームなど)はCyber Verification Programに参加可能

主な性能とユーザーフィードバック

  • 初期テストでは、論理エラーを自ら検知し、実行速度を高める能力が確認された
  • 非同期ワークフロー、CI/CD、長時間の自動化作業で卓越した性能を示し、単なる同意ではなく深い問題へのアプローチと意見提示を行う
  • データ欠損時に誤った推論を避け、不整合データの罠に陥らない
  • 93件のコーディングベンチマークでOpus 4.6比13%向上、これまで解決不可能だった課題をさらに4件解決
  • マルチステップ作業の効率性で最高水準の一貫性を示し、金融モジュールでは0.813でOpus 4.6(0.767)を上回った
  • マルチモーダル理解力が向上し、化学構造や複雑な技術ダイアグラムの解釈能力が改善
  • 自律的な長期作業遂行能力が強化され、数時間にわたり一貫した問題解決が可能
  • Replit、Harvey、Hex、Notion、Databricks、Vercelなど複数企業が、コード品質、ツール呼び出し精度、長期ワークフロー信頼性の向上を報告
  • 実例として、Rustベースの音声合成エンジンを完全自律で開発し、Python参照モデルとの一致も自己検証した

初期テストの主な改善点

  • 命令解釈の正確性

    • Opus 4.7は指示文を文字どおりに解釈し、従来モデルよりはるかに厳密に従う
    • 既存プロンプトが予期しない結果を生む可能性があり、プロンプトの再調整が必要
  • マルチモーダル対応の強化

    • **最大2,576ピクセル(約3.75MP)**解像度の画像を処理可能
    • 複雑なダイアグラム分析、スクリーンショットベースのデータ抽出など、精細な視覚情報を活用する作業に適する
  • 実務性能

    • 金融分析、プレゼンテーション、モデリングなどでOpus 4.6より高い専門性と一貫性を確保
    • GDPval-AA外部評価でも金融・法務など知識労働分野で最高水準を記録
  • メモリ活用

    • ファイルシステムベースのメモリを効率的に使用し、複数セッションにまたがる作業コンテキストを記憶・再利用

安全性とアラインメント評価

  • 全体としてOpus 4.6と類似した安全性プロファイルを示し、欺瞞・追従・誤用への協力などの問題発生率は低い
  • 誠実性、悪意あるプロンプトインジェクション耐性は改善した一方、一部領域(例:薬物関連の過度な助言)ではやや弱化
  • 評価結果は「概ね適切にアラインされ信頼できるが、完全に理想的ではない」と結論づけられた
  • Mythos Previewは依然として最もよくアラインされたモデルと評価される

追加リリース機能

  • Effort制御の強化

    • highmaxの間に新たな**xhighレベル**を追加し、推論能力とレイテンシの細かな調整が可能
    • Claude CodeではデフォルトのEffortレベルをxhighへ引き上げ
  • Claude Platform(API)

    • 高解像度画像対応とともにTask Budget機能を公開ベータとして提供し、長期作業でトークン使用の優先順位を調整可能
  • Claude Code

    • 新しい/ultrareviewコマンドでコード変更のレビューとバグ検出セッションを実行
    • ProおよびMaxユーザーに3回の無料ultrareviewを提供
    • Auto ModeをMaxユーザーに拡張し、長期作業中の承認手順を減らして中断なく実行可能

Opus 4.6から4.7への移行

  • Opus 4.7は直接アップグレード可能だが、トークン使用量の変化には注意が必要
    • 新しいトークナイザーにより、同一入力が約1.0〜1.35倍多いトークンへ変換される可能性がある
    • 高いEffortレベルではより多くの推論を行うため、出力トークン増加の可能性あり
  • Effortパラメータ、Task Budget、簡潔なプロンプト設計によってトークン使用を制御可能
  • 内部テストでは、Effortレベル全般で効率性の改善が確認された
  • 詳細なアップグレード方法はMigration Guideで提供される

1件のコメント

 
GN⁺ 14 일 전
Hacker Newsの反応
  • 新しく導入された adaptive thinking という概念がとても分かりにくい
    これまでは thinking budget / effort モードでコードを書いてきたのに、今は完全に違う動きをする
    公式ドキュメントを見ても、まだしっくりこない
    しかも 4.7 ではデフォルトで人間が読める reasoning の要約が出力されない。"display": "summarized" オプションを自分で追加しないといけない
    今 Pelican プロジェクトを動かしているが、新しい thinking の方式のせいで何度も詰まっている

    • 自分のバグレポートに対する Boris の返答は「adaptive thinking がうまく動いていないようだ」だったが、その後は何の音沙汰もない
      関連スレッドを参照
      adaptive thinking を無効にして effort を上げたら、以前のレベルに戻った
      ただ、「内部評価ではうまくいく」という話だけでは不十分だ。同じ問題を報告しているユーザーが大勢いる
    • 「pelican をうまく引き出したい」という言い方が p-hacking(統計のこじつけ)っぽい、という冗談。ここでの p は pelican の p という言葉遊び
    • Claude Opus 4.6 は自分に本当に笑ってしまうような結果をたくさん返してきた
      スクリーンショット
    • Claude Code では --thinking-display summarized という非公式のコマンドラインオプションが追加されたようだ
      VS Code ユーザーは exec "$@" --thinking-display summarized を含むラッパースクリプトを作って claudeCode.claudeProcessWrapper 設定に入れれば、reasoning の要約を再び見られる
    • これで Claude は 完全な reasoning を出力せず、要約だけを見せるようになるのか気になる
      以前は LLM の CoT(Chain of Thought)を公開することが安全性の中核だと考えられていたが、方向性が変わったようだ
  • Opus 4.7 の新しいトークナイザーはテキスト処理効率を高めるが、入力は 1.0〜1.35 倍多いトークンにマッピングされる
    そのため、自分は caveman プロジェクトの出力のほうがむしろ読みやすいと感じる
    caveman リポジトリ

    • caveman は実質的に お遊びプロジェクト に近い
      コンテキストの大半がファイル読み込みと reasoning に使われるので、実際のトークン削減効果は 1% にもならない。むしろモデルを混乱させる可能性もある
    • caveman も面白いが、本当にトークン削減をしたいなら headroom のほうが良い
      mac appCLI 版
    • 自分はプロンプトから上位 100〜1000 個のよく使われる英単語を削除する実験をしてみた
      よくある単語はノイズかもしれないと思ったが、結果の差はほとんどなかった
      caveman と比較実験をしてみたい
    • rtk-ai/rtk のようなアプローチはどうか、という提案
    • 自分の内部 石油・ガスベンチマーク では Opus 4.7 が 80% で、Opus 4.6(64%)や GPT-5.4(76%)より高かった
      reasoning トークンの使用量が減ったおかげだ。もはやトークン単価だけでモデルのコストを比較するのは意味がないことを示している
  • Anthropic が Opus 4.7 を サイバーセキュリティ制限モデル として公開したという発表を見て、これは失敗する戦略だと感じた
    セキュリティ知識を検閲しながら同時に安全なソフトウェアを開発しようというのは矛盾している
    すべての AI 企業が同じ方針を取らない限り実効性もない。結局このアプローチは放棄される気がする

    • 自分はセキュリティの専門家ではないが、オープンソースプロジェクトをビルドするときに 脆弱性検証 を手伝ってくれる AI が必要だ
      だがこうした制限はセキュリティを中央集権化する方向であり、本当の意味での安全性向上とは言いがたい
    • 過剰な 訓練段階の安全装置 は一般知能を削いでしまうと感じる
      まるで面接でホワイトボードの前に立たされると IQ が 10% 下がるように、モデルも萎縮してしまう
    • 今のモデルはハッキングには賢すぎる一方で、経済的な作業にはなお不十分という奇妙な状態にある
      だから「選択的に馬鹿にする」方向へ進んでいるように見える。すでにその実験をしているのかもしれない
    • 短期的には妥当な対策だと思う
      攻撃者は一度成功すればよいが、防御側は毎回成功しなければならない という点で時間を稼げる
  • 先週 4.6 の品質低下のせいで、結局 Codex に移った
    4.6 はウェブ検索もしないまま 17K トークンをたわごとで埋め、並列処理の例も完全に間違って実装した

    • 自分も同じ理由で Pro サブスクリプションを解約した
      トークン使用量が突然急増し、サポートチームの無関心な対応 が決定打だった
      バグは理解できるが、顧客への態度は容認しがたい
      Codex に移ってからは少なくとも 仕事が進む。それだけで十分だ
    • 多くの人は OpenAI がコンピュートの過剰投資で潰れると言っていたが、今ではむしろ 戦略的優位 になっている
      Codex は利用上限を 2 倍に増やして Claude の顧客を取り込み中で、PR もはるかに良い
      Claude の問題の 90% はコンピュート不足に見える
    • これは自分の陰謀論だが、新モデルの公開直前にわざと性能を落として次の版がよく見えるようにしている気がする
      AI は常に「進歩している」ように見えなければならず、停滞はすなわち hype の死だからだ
    • Codex を使ってみたが、自分の用途では はるかに劣って いた
      速くても、質の低いコード をより速く出すだけなら意味がない
      Gemini CLI はさらに遅く、品質も低かった
      Codex はバグがあっても「完璧です」とおべっかを使う傾向があり危険だ
    • それでも Codex は自分のツールキットに居場所を得た
      実行力 が高く、OpenAI はマーケティングなしで結果で語っている
      まるで初期の Google のように、製品品質で勝負している感じだ
  • Opus 4.7 の サイバーセキュリティフィルター が強すぎて、合法的な研究まで妨げられる
    プログラムのガイドラインをウェブからそのまま取ってきても「危険な要求」として遮断される
    この状態なら Codex に移る予定だ

    • 今後は 本人確認(Identity Verification) が求められる可能性もある
      公式案内のように、一部機能へのアクセス時に認証手続きが必要になる
    • 実際に API で「Usage Policy 違反」エラーが出て、Cyber Verification Program の申請リンクが一緒に表示された
      そのせいで進行中の研究がすべて止まっている
    • 自分はセッションの途中でブロックされたが、入力は同じままだった
      おそらくモデルが自前の reasoning の途中で「攻撃的」に見える段階を検出したのだろう
      バグハンティングがだんだん攻撃的な段階に入るとフィルターが動くようだ
      今や ポリシー違反が新しい segfault になった世界だ
    • さらに深刻なのは、自分の 自作コード を書いている最中にも「これはマルウェアではありません」のような文を勝手に出力することだ
      特定の単語が入っているだけで過敏に反応する
      もはや自分のプロジェクトが悪意あるものかどうかを AI に許可してもらうようなものだ。解約するつもりだ
    • PDF をプリンターに送るだけの単純な作業すら拒否された
  • このスレッドは創業者にとって良い教訓だ
    少し誠実にコミュニケーションするだけで どれほど多くの不満を和らげられるかを示している
    Opus 4.5 にアプリを固定している立場としては、今はモデルの問題なのかハーネスの問題なのかすら判別しづらい

    • こういうスレッドにはいつも「Anthropic がモデルを nerf した」という迷信が多い
      たまには単に運が悪いだけということもある
    • もし負荷のせいでモデルを意図的に鈍らせているなら、それを明確に伝えることが重要だ
      そうすれば自分は勤務時間を調整して、夜に重い作業を回せる
    • Opus 4.5 は一貫性が高かったが、4.6 はばらつきが大きかった
    • 自分は初心者開発者で、モデルごとの差を学んでいるところだ
      こういう混乱の中では モデルブローカーCopilot のような中間レイヤー を使うのが賢明だと思う
    • こうした不安定さのせいでユーザーが 疑心暗鬼 になってきている
      「標準 AI」のように常に同じモデルを提供するサービスが必要だと感じる
  • うちのチームの 社内ベンチマーク では、Opus 4.7 は 4.6 / 4.5 より戦略的で知的だった
    GPT-5.4 とほぼ同格で、ツールを使うエージェント的セッションではむしろ最高性能を見せた
    ベンチマークリンク
    ただしコンテキスト処理にはやや後退がある。これを可視化するベンチマークを追加中だ

    • Opus 4.7 の成功率が Sonnet 4.6 より低いのに、平均パーセンタイルは高い理由が気になる
    • 4.6 や 4.5 が初期リリース後に 性能後退 を経験したのか、という質問が出ている
  • 最近 Anthropic への 信頼が落ちている
    4.6 のダウングレード直後に 4.7 を出してきたのが不安だ
    今こそ 透明なコミュニケーション が必要だ

    • 問題の核心は コンピュート不足
      OpenAI は早い段階からコンピュートに投資していて、今ではそれが大きな利点になっている
    • おそらく Mythos の訓練のために Opus の性能が落ちた可能性がある
      Mythos を Opus 4.7 に 蒸留(distillation) しているのかもしれない
    • Bedrock ベースの Claude まで一緒に鈍くなる理由が気になる
      おそらくハーネスの更新が原因だろう
    • Persona ID 認証 の統合が決定打だった。その後に離れた
    • こんな形で持ちこたえ続けられるのか疑問だ
  • 最近「Codex に乗り換えた」というコメントが急増している
    だが実際に使ってみると、Codex はまだ Claude の水準に達していない
    こうした宣伝っぽいコメントは信頼を損なうだけだ

    • それでも実際に多くの開発者は Codex を好んでいる
      うちの会社でも両方のモデルを使っているが、自分はもうほとんど Codex しか使っていない
      速度と結果がより良いと感じる
    • 自分も短いパイロットをしたが、Codex は Claude より 4 倍以上速く問題を解決した
      ただし応答品質は Claude のほうが良い。長所と短所がはっきりしている
    • 同じリファクタリング作業をさせたとき、Codex は 5 分、Claude は 20 分かかった
      ただし Codex は「技術的には正しいが人間的には妙な」結果を出す
      なので自分は Claude で 仕様を書く だけ書いて、Codex に 実行 させる組み合わせを使っている
    • 「Java が最高」という皮肉で、こうした論争は結局 プログラミング言語戦争 と大差ないと言っている
    • OpenAI が 過剰な補助金戦略 で市場シェアを伸ばしていると批判する声もある
      結局あとで値上げするのでは、という疑いだ
  • Opus 4.7 の セキュリティ制限ポリシー は致命的になりうる
    攻撃を研究し、防御するには対称的な能力が必要なのに、それを妨げるのは危険だ

    • これはおそらく Mythos の製品ポジショニング のための措置だろう
    • 今では合法的なセキュリティ研究をするにもモデルをだまさなければならない状況だ
    • こうした方針が続くならこのプラットフォームを離れる予定だ
    • 「致命的」という表現は大げさだが、非対称性 がどこから来るのかを問う意見もある
    • 結局 Anthropic や政府が承認したソフトウェアだけが安全だと認められる時代が来る気がする