- Claude Code Opus 4.5 のSWEタスク性能を毎日測定し、統計的に有意な性能低下を検出する追跡システム
- SWE-Bench-Pro の選別されたサブセットを用いて、毎日50件のテストインスタンスを評価し、結果は CLI環境で直接実行された実際のモデル性能を反映
- 直近30日間の 平均通過率54%、ベースライン58%に対して 統計的に有意な4.1%の低下が検出
- 日次および週次の結果は、95%信頼区間と**有意性しきい値(±14.0%、±5.6%)**を基準に分析され、短期的な変動と長期的な傾向を区別
- 独立した第三者機関が運営し、モデルまたは実行環境の変化による性能低下を早期検出するツール
概要
- このトラッカーの目的は、Claude Code Opus 4.5 のSWEタスク性能における 統計的に有意な低下 を検出すること
- 毎日 SWE-Bench-Pro の汚染耐性サブセットを使って評価を実施
- Claude Code CLI で直接実行し、別個のカスタムハーネスなしで実際のユーザー環境を反映
- 独立した第三者機関であり、フロンティアモデル提供者との提携はない
- 2025年9月の Anthropicの性能低下に関するポストモーテム 以降、今後の類似事例を早期に検出するためのリソースとして運用
性能サマリー
- ベースライン通過率: 58%
- 直近30日の通過率: 54%(655回の評価に基づく)
- 直近7日の通過率: 53%(250回の評価に基づく)
- 直近1日の通過率: 50%(50回の評価に基づく)
- 30日間の性能低下 は p < 0.05 の水準で統計的に有意
- 30日の変化幅: -4.1%
- 有意性しきい値: ±3.4%
- 1日(-8.0%)および7日(-4.8%)の変化は 統計的に有意ではない
日次および週次の傾向
- 日次傾向(Daily Trend)
- 直近30日間の日別通過率を可視化
- ベースライン58%、有意性しきい値範囲 ±14.0%
- 95%信頼区間 を表示可能で、標本数が少ないほど区間は広くなる
- 週次傾向(Weekly Trend)
- 7日移動平均により日次の変動性をならした傾向を提供
- ベースライン58%、有意性しきい値範囲 ±5.6%
- 同様に 95%信頼区間 を表示可能
変化概要(Change Overview)
- 1日の変化(昨日比): -8.0%、統計的に有意ではない
- 50回の評価基準で、±14.0%の変化が必要(p < 0.05)
- 7日の変化(先週比): -4.8%、統計的に有意ではない
- 250回の評価基準で、±5.6%の変化が必要(p < 0.05)
- 30日の変化(先月比): -4.1%、統計的に有意
- 655回の評価基準で、±3.4%の変化が必要(p < 0.05)
方法論(Methodology)
- 各テストを ベルヌーイ確率変数 としてモデル化し、95%信頼区間 を計算
- 日次、週次、月次の通過率の統計的差異を分析し、有意な性能低下の有無を報告
- 毎日50件のテストインスタンスで評価を実施するため、短期的な変動性が存在
- 週次および月次の集計結果 は、より安定した推定値を提供
- モデル変更 または 実行ハーネス変更 による性能低下のいずれも検出可能
通知機能
- 性能低下が統計的に検出された場合、メール通知を送信
- ユーザーはメールアドレスを登録して購読可能
- 購読確認後に通知を受信でき、エラー発生時には再試行案内あり
2件のコメント
Claude Code がバカになったわけじゃなくて……使う人のほうが Claude をもっと上手く活用できるようになった……のかも……
Hacker Newsのコメント
Claude CodeチームのThariqです
1月26日に発生したharnessの問題を修正しました。1月28日にロールバックも完了しているので、
claude updateコマンドで最新版に更新することを勧めますSWE-benchの共同著者です
現在のテストは50件のタスクだけを対象に、1日1回しか実行されていないようです。精度を上げるには、300件のタスクに対して1日5〜10回テストして平均を取るべきです。サーバー負荷のようなランダム要因が結果に大きく影響し得ます
Anthropicがユーザーにより悪いモデルを提供しているとは信じない理由をまとめます
統計手法がおかしいです
彼らは以前の値の信頼区間だけを見て、新しい値がその外にあるかを確認するやり方ですが、これは差の統計的有意性を検証する正しい方法ではありません。両方の測定値に不確実性があるので、差そのものの信頼区間を計算すべきです。また月次比較なら、60〜31日前のデータと30日前〜昨日までのデータを比較する必要があるので、グラフは最低でも2か月分を示すべきです
1週間ほど前、Claudeが約1時間ダウンしたことがありました。復旧直後はユーザー数が減っていたせいか、速度が3倍以上速くなっていました。その1時間の間に、普段なら半日かかる仕事量を片付けました。資源制約のない未来を少しだけ見たような気分でした
ユーザープロンプト内の罵倒語の頻度を測れば、モデル性能が落ちたときのユーザー敵意の上昇を検知できるかもしれません
時間の経過とともに**モデルを段階的に量子化(quantization)**している可能性があります。そうすればスケーラビリティ向上やコスト削減がしやすくなり、新バージョンがより「良く見える」効果も出ます
APIモードでは、Claudeは一定のトークン数を超えると急に間抜けになり、「23行目にバグがある」と言いながら機能全体を削除するような的外れな振る舞いをします。ChatGPT 3.5でもできる単純な修正すら失敗します。なぜこうなるのか理解できません
この1週間ほどで、Claudeのコード品質が目に見えて悪化しました。たとえばEnumに
frozenを使えと言ったり、すでにurlparseを使っている関数に再びurlparseを提案したりします。以前はこうした基本的なミスはしませんでしたLLMプロバイダーの推論能力の一貫性のなさが大きな不満です。ChatGPTでも同様で、45kトークンを超える入力では知能が急激に落ちたり入力が切り捨てられたりします。いっそ「拒否」メッセージを出してくれたほうがよく、こっそりダウングレードされるのは信頼を失います。透明性が本当に重要です