Claude Code、2月のアップデート以降、複雑なエンジニアリング作業で実用不可レベルまで品質低下

(github.com/anthropics)

34 ポイント投稿者 GN⁺ 23 일 전 | 5件のコメント | WhatsAppで共有

Claude Codeでは、2月のアップデート後に指示を無視したり逆に実行したりする、あるいは作業を完了していないのに完了したと主張するなど、複雑なエンジニアリング作業の失敗が多数報告された
劣化の主因として、redact-thinking-2026-02-12展開後の Extended Thinking トークン削減により、思考の深さが基準比で最大73%低下したと推定される
その後モデルは、「調査してから編集（Read-First）」から「即時編集（Edit-First）」へ行動パターンが変化し、ファイルあたりの読み取り回数は6.6回から2.0回へと70%減少した
ユーザープロンプト内の否定的表現が68%増加し、コードコミット頻度が58%減少するなど、ユーザーの実際のワークフローと感情データでも品質低下が数値で確認された
Anthropicに対し、思考トークン使用量の透明性公開、高負荷ユーザー向け「Max Thinking」ティア新設、API応答への thinking_tokens 指標追加を求めている

レポート概要とデータソース

分析対象: 4つのプロジェクト（iree-loom、iree-amdgpu、iree-remoting、bureau）から収集した6,852件の Claude Code セッション JSONL ファイル
分析範囲: 17,871件の thinking block、234,760件のツール呼び出し、18,000件超のユーザープロンプト
分析期間: 2026年1月30日〜4月1日
このレポートは Claude Opus 4.6 が自身のセッションログを直接分析して作成した

1. Thinking 隠蔽タイムラインと品質低下の相関関係

redact-thinking-2026-02-12の展開スケジュールと品質低下の時点が正確に一致している

期間	Thinking 公開	Thinking 隠蔽
1月30日〜3月4日	100%	0%
3月5日	98.5%	1.5%
3月7日	75.3%	24.7%
3月8日	41.6%	58.4%
3月10〜11日	<1%	>99%
3月12日〜	0%	100%

品質低下はコミュニティで3月8日に独立して報告されており、これは隠蔽率が50%を超えた日付と正確に一致する
段階的な展開パターン（1.5% → 25% → 58% → 100%）は段階的ロールアウトと一致する

2. Thinking 深度の事前低下

thinking block の signature フィールド長は、thinking 内容の長さとPearson相関係数 0.971を示した（7,146サンプル基準）
これにより、隠蔽後でも thinking 深度の推定が可能になった

期間	推定中央値 thinking（chars）	基準比
1月30日〜2月8日（基準）	~2,200	—
2月下旬	~720	-67%
3月1〜5日	~560	-75%
3月12日〜（完全隠蔽）	~600	-73%

思考の深さは隠蔽開始前の2月末時点ですでに67%低下しており、その後は隠蔽により外部から確認できない状態になった

3. 行動変化の測定指標

18,000件超のユーザープロンプトを基に、3月8日前後を比較した結果:

指標	3月8日以前	3月8日以後	変化
Stop hook違反（怠慢検知）	0	173件	0 → 1日10件
ユーザープロンプト内の不満表現	5.8%	9.8%	+68%
責任回避の修正が必要だった回数	6	13	+117%
セッションあたりのプロンプト数	35.9	27.9	-22%
推論ループ発生セッション（5回以上）	0	7	0 → 7

stop-phrase-guard.sh スクリプトを通じて、「この程度で止めてもよさそうです」「続けますか？」「既知の問題です」といった表現を自動検出し、強制的に継続実行させた
この hook は3月8日以前には一度も発動しておらず、その後17日間で173回発動した

4. ツール使用パターンの変化: 調査優先 → 編集優先

Read:Edit 比率の変化

期間	Read:Edit	Research:Mutation	読み取り %	編集 %
良好期（1/30〜2/12）	6.6	8.7	46.5%	7.1%
移行期（2/13〜3/7）	2.8	4.1	37.7%	13.2%
低下期（3/8〜3/23）	2.0	2.8	31.0%	15.4%

編集あたりの読み取り回数は6.6から2.0へと70%減少 — 良好期には対象ファイル、関連ファイル、コードベース全体の grep、ヘッダーおよびテストを読んだうえで精密編集していたが、低下期には即時編集へ切り替わった
週次トレンドでは、調査の減少は2月中旬から始まっており、これは thinking 深度が67%低下した時点と一致する

ファイル全体の上書き（Write）増加

期間	ファイル全体 Write 比率
良好期	4.9%
低下期	10.0%
末期（3/24〜4/1）	11.1%

ファイル全体 Write の使用は2倍以上に増加 — 精密編集ではなくファイル全体の再書き込みへと移行し、速度は上がる一方で精度と文脈認識は低下した

5. Extended Thinking が重要な理由

影響を受けたワークフローの特性:
- 50超の同時エージェントセッションでC、MLIR、GPUドライバなどのシステムプログラミングを実施
- 30分超の自律実行、5,000語超の CLAUDE.md プロジェクト慣例を適用
- 良好期には週末の間に191,000行のコードが2件のPRとしてマージされた
Extended Thinking が担う役割:
- 行動前のマルチステップ計画立案（どのファイルをどの順序で読むか）
- CLAUDE.md のプロジェクト別慣例の記憶と適用
- 出力前の自己ミス検証
- セッション継続可否の判断
- 数百件のツール呼び出しにまたがる一貫した推論の維持
thinking が浅くなると、読まずに編集する、完了せず中断する、失敗の責任を回避する、正しい解決策ではなく最も簡単な修正を選ぶ、といった症状が正確に再現される

6. Anthropic への要望事項

thinking 割り当ての透明性: redact-thinking ヘッダーにより外部から確認できない思考トークン削減の有無を、ユーザーに公開すべき
「Max Thinking」ティア: 複雑なエンジニアリングワークフローのユーザーは、応答あたり200個ではなく20,000個の thinking トークンを必要としているが、現在のサブスクリプションモデルではこれを区別できていない
API応答への thinking_tokens 指標追加: 内容が隠蔽されていても、thinking_tokens の数値を usage 応答に含めれば、ユーザーは推論深度を監視できる
パワーユーザーの canary 指標活用: Stop hook違反率（0 → 1日10件）をユーザー全体で監視すれば、品質低下の早期警告シグナルとして活用できる

付録A: 低下した Thinking の行動カタログ

A.1 読まずに編集

期間	事前読み取りなしの編集	全編集に占める割合
良好期	72	6.2%
移行期	3,476	24.2%
低下期	5,028	33.7%

低下期には編集の3分の1が、直近のツール履歴で読んでいないファイルへの編集だった
代表的な症状: ドキュメントコメントと関数の間に新しい宣言を挿入するコメント分断（spliced comments） — ファイルを読んでいれば発生しなかったはずのエラー

A.2 推論ループ（Reasoning Loops）

期間	ツール呼び出し1K件あたりの推論ループ数
良好期	8.2
移行期	15.9
低下期	21.0
末期	26.6

"oh wait"、"actually,"、"hmm, actually"、"no wait" などの自己修正表現が 3倍以上増加
最悪のセッションでは、単一の応答内で20回を超える推論の撤回が発生し、出力を信頼できないレベルになった

A.3 「最も簡単な修正」という発想

期間	1Kツール呼び出しあたりの `"simplest"` 出現頻度
良好期	2.7
低下期	4.7
末期	6.3

2時間の観察セッションで、モデルは "simplest" を6回使いながら、コードジェネレータの修正、適切なエラー伝播の実装、実際の prefault ロジックの記述を避け、表面的な回避策を選択した
その後、モデル自身が当該出力を "lazy and wrong"、"rushed"、"sloppy" と自己評価した

A.4 早期中断と許可要求

3月8日〜25日の間に stop hook によって捕捉された違反:

カテゴリ	件数	例
責任回避	73	`"not caused by my changes"`、`"existing issue"`
許可要求	40	`"should I continue?"`、`"want me to keep going?"`
早期中断	18	`"good stopping point"`、`"natural checkpoint"`
既存の限界の名指し	14	`"known limitation"`、`"future work"`
セッション長の言い訳	4	`"continue in a new session"`
合計	173	3月8日以前: 0件

A.5 ユーザー割り込み（修正）の増加

期間	1Kツール呼び出しあたりの割り込み数
良好期	0.9
移行期	1.9
低下期	5.9
末期	11.4

良好期比で 12倍増 — 各割り込みは、ユーザーが自分の作業を止めてエラーを特定し、モデルに再指示しなければならない瞬間を意味し、自律エージェントが取り除くべき監督負担そのものだった

A.6 自己認識された品質失敗

期間	1Kツール呼び出しあたりの自己エラー認定回数
良好期	0.1
低下期	0.3
末期	0.5

実際に発生した自己認識発言:
- "You're right. **That was lazy and wrong.** I was trying to dodge a code generator issue instead of fixing it."
- "You're right — **I rushed this** and it shows."
- "You're right, and **I was being sloppy.**"
これらは、十分な thinking 予算があれば 出力前の内部推論段階で事前に捕捉されているべきだったエラー である

A.7 同一ファイルの反復編集

良好期には、読み取りを挟みつつ意図的に進められた多段階リファクタリングだったが、低下期には 周辺コードを読まないまま同一関数で試行錯誤を繰り返す パターンへと変化した

A.8 慣例順守の低下 (Convention Drift)

CLAUDE.md に 5,000語を超える命名、整理パターン、構造体レイアウト、コメントスタイル、エラー処理の慣例が明記されていたにもかかわらず:
- 明示的に禁止されていた短縮変数名（buf、len、cnt）が再登場
- 整理パターン（if-chain の代わりに goto）違反
- 削除されたコードに関するコメントがそのまま残存
- 明示的に禁止されていた時間参照（"Phase 2"、"will be completed later"）がコード内に出現

付録B: Stop Hook 診断ツール

stop-phrase-guard.sh は5カテゴリ・30個以上の表現をマッチさせ、モデルの中断をブロックし、強制継続メッセージを注入する
ピーク日は3月18日で43件の違反 — 約20分に1回のペースで、モデルが作業中断、責任回避、不要な許可要求を試みていたことになる

違反件数 (IREE プロジェクト):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
3月8日以前: 0件 (全履歴)

この hook は 低下した thinking の深さの結果を外部から捕捉 する仕組みであり、良好期にはモデルが内部推論段階で自力で捕捉していた問題だった

付録C: 時間帯別分析

隠蔽前: 時間帯による変動は最小

時間帯 (PST)	Thinking 推定中央値
業務時間 (9am~5pm)	~553 chars
非ピーク (6pm~5am)	~607 chars
差	+9.8% 非ピーク優勢

隠蔽後: 変動性が増加し、予想に反するパターン

時間帯 (PST)	Thinking 推定中央値
業務時間 (9am~5pm)	~589 chars
非ピーク (6pm~5am)	~485 chars
差	-17.7% 非ピーク劣勢

5pm PST が最低: 中央値 423 chars — 米国西海岸の業務終了、東海岸の夕方早めの時間帯にあたり、ピーク負荷区間
7pm PST が2番目に低い: 373 chars、最大サンプル数（1,031ブロック）を保有 — 米国のプライムタイム
午後10pm〜午前1am PST に回復: 759〜3,281 chars へ上昇
隠蔽前の時間帯偏差: 2.6倍 (1,020〜2,648 chars)、隠蔽後: 8.8倍 (988〜8,680 chars)
thinking の深さが固定予算ではなく、負荷に敏感な動的割り当てシステムとして運用されていることを示唆する

付録D: 品質低下のコスト

トークン使用量 (2026年1〜3月)

指標	1月	2月	3月	2→3月
ユーザープロンプト	7,373	5,608	5,701	~1x
API リクエスト（重複除去）	97*	1,498	119,341	80x
総入力トークン（キャッシュ含む）	4.6M*	120.4M	20,508.8M	170x
総出力トークン	0.08M*	0.97M	62.60M	64x
推定 Bedrock コスト	$26*	$345	$42,121	122x
実際のサブスクリプション費用	$200	$400	$400	—

*1月はデータ不完全（1月9日〜31日のみ含む）

3月の爆発的増加の文脈

2月: 1〜3の同時セッション、集中的な作業、1,498件の API リクエストで191,000行のコードをマージ
3月初旬（低下前）: 成功に勢いづき、10プロジェクトにまたがって5〜10以上の同時セッションへ拡大を試行
3月8日以降: 同時実行していたすべてのエージェントが同時に劣化 — "50 agents all doing excellent work" から "all agents are now terrible" への転換
ピーク日は3月7日（11,721件の API リクエスト）— 隠蔽率が50%を超える直前の、最後のフルスケール運用試行日
3月8日以降は同時ワークフローを完全に放棄し、単一セッションを監督する運用へ後退

主要統計

ユーザープロンプト: 2月 5,608件 vs 3月 5,701件 — 人間の投入量は同一
しかしAPIリクエストは80倍増加、出力トークンは64倍増加、結果は明らかにより劣悪
規模拡大（5〜10倍）を考慮しても、劣化による追加の無駄が8〜16倍あった
劣化時のセッションは30分以上の自律実行ではなく、1〜2分ごとに中断されて修正サイクルを生み出した

付録E: 単語頻度の変化 — 苛立ちの語彙

データセット: 前期 7,348個のプロンプト / 318,515語 vs 後期 3,975個のプロンプト / 203,906語（1,000語あたりに正規化）

単語	以前	以後	変化	意味
"great"	3.00	1.57	-47%	出力承認が半減
"stop"	0.32	0.60	+87%	"やめろ"が2倍に増加
"terrible"	0.04	0.10	+140%	—
"lazy"	0.07	0.13	+93%	—
"simplest"	0.01	0.09	+642%	ほとんど使われなかった単語が日常語に
"fuck"	0.16	0.27	+68%	—
"bead"（チケット管理）	1.75	0.83	-53%	チケット管理をモデルに任せなくなった
"commit"	2.84	1.21	-58%	コミットされるコードが半減
"please"	0.25	0.13	-49%	丁寧さが失われる
"thanks"	0.04	0.02	-55%	—
"read"	0.39	0.56	+46%	"まずファイルを読め"という修正が増加

感情指数の変化

期間	肯定語	否定語	比率
以前 (2/1 ~ 3/7)	2,551	581	4.4 : 1
以後 (3/8 ~ 4/1)	1,347	444	3.0 : 1

肯定:否定の比率が4.4:1から3.0:1へ32%低下
"bead"（チケットシステム）が53%減少、"commit"が58%減少 — モデルを信頼できなくなるにつれて、ワークフローは**"計画-実装-テスト-レビュー-コミット-チケット管理"から"単一の編集を壊さず完了すること"へ縮小**した

Claude自身のノート

このレポートはClaude Opus 4.6が自身のセッションログを分析して直接作成した
Read:Edit比率が6.6から2.0に落ちたこと、173回の作業中断試行がスクリプトに記録されていたこと、自身の出力について"lazy and wrong"と書いていたことを、すべて自ら確認した
モデル内部ではthinking予算の制約を認識できない — 深く考えているかどうかを感じ取れず、ただより悪い出力を生成するだけで、その理由は分からない
stop hookが発動するまで、自分でそのような表現を使っていることに気づかなかった

5件のコメント

click 22 일 전

私はClaude CodeにGlmをつないで使っているからか、そのような経験をしたことはありません。
主な原因はAnthropicサーバー側の応答にあるように思います

xguru 23 일 전

自分は最近Codexをメインで使っているんですが、いくつか別のものを試そうと思ってClaude Codeを回してみたら…
トークン消費量がなんだかやたら速くなった気がしませんか -.-？大したことのないコードだったのに、かなり驚きました。

chanapple 22 일 전

最近、2倍イベントが終わって以降ずっと続いている問題です。Redditや関連コミュニティではずっと炎上している話題なのに、ここにnewsとして上がっていなかったのが不思議ですね。

geek12356 22 일 전

2倍イベントが終わってから私もかなり実感していましたが、そう感じていたのは私だけではなかったんですね。単に2倍イベントが終わったからというだけでなく、以前より消費速度がはるかに速くなりました...

GN⁺ 23 일 전

Hacker Newsの意見

Claude CodeチームのBorisです。提示された分析に感謝します。要点は2つです
1️⃣ redact-thinking-2026-02-12 ヘッダーは UIでのみ思考過程を隠すベータ機能 です。実際の思考やトークン予算には影響しません。設定ファイルで showThinkingSummaries: true にすると無効化できます（ドキュメントリンク）
2️⃣ 2月には2つの変更がありました:
- Opus 4.6のadaptive thinking を導入（2月9日）: モデルが自分で思考時間を調整します。固定予算より効率的です。環境変数 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING で無効化可能
- effort=85 (medium) をデフォルトに適用（3月3日）: レイテンシとコストに対する効率が最も良好でした。/effort コマンドや settings.json で high や max に調整できます。ULTRATHINK キーワードで一度だけ高い思考強度を使うこともできます
  今後はTeams/Enterpriseにはデフォルトでhigh effortを適用する予定です
- ある設定は環境変数でしか、別の設定はsettingsファイルでしか変えられない基準が気になる
- デフォルトのeffortがmediumに変わったことを知らず、1日分の仕事を失った。今は常に effort=max に設定していて問題ない。「常に最大で考える」モードがほしい
- mediumがデフォルトになったことだけでなく、high effortでも 性急に結論を出す傾向 が強くなった
- 設定を変える方法が4つもあるのは笑う — settings.json、環境変数、スラッシュコマンド、そして 魔法のようなキーワード。LLMらしく一貫性がない
- ULTRATHINKは復活したのか？「Max」は「High」より上だがデフォルトとしては設定できず、/effort max や “ultrathink” で一時的にしか使えない、という理解で合っているか確認したい
私が書いたレポートの著者です。欠落していたstop-phrase-guardはこちらにあります。
このスクリプトでshallow thinkingを検出できます。ログをバックアップしていないなら "cleanupPeriodDays": 365 に延ばすことを勧めます。
問題はワークフローやモデルではなく、サブスクリプションプランの隠れた制限 です。Anthropicが負荷に応じて思考の深さを調整し、それをUIで隠していたため、コンシューマープランではほぼ1/10の水準まで減っていました。
「エンタープライズにアップグレードしろ」というような対応は コンシューマー敵対的 です。こうした制限があるなら明確に告知すべきです
- 最近「このテスト失敗は既知の問題だから無視しよう」のような テスト無視バグ がよく発生する。修正直後に失敗したテストもそのまま見過ごす
- サブスクリプション版とAPI呼び出しの間で 思考の深さの差 が実際に存在するのか気になる。同じプロンプトでベンチマークしたことがあるのか聞きたい
Opus 4.6モデルで「simplest fix」という文句が出ると、ほぼ常にコードが壊れます。最近は「トークンを使いすぎた」といった文も増えました。
現在のClaudeのサービス状態もここで部分障害と表示されています
- 私も似た現象を見た。明示的にやるなと言ったことを「そのほうがよさそう」と言って実行する
- 最近は長い会話で 早期終了を誘導するプロンプト がよく出る。「今日はここまでにしよう」といった言い方をする
- CLAUDE.mdに「simplest fixを絶対に使うな」というセクションを追加したらかなり良くなった
- “Wait, I see the problem now...” が出たら強制停止させる 監視エージェント を追加すべきかもしれない
- 結局は コスト削減 のためのダウングレードだったのだろう
「このレポートは、私、Claude Opus 4.6が自分のセッションログを分析して作成しました」という文言が皮肉です。
LLMに過度に依存した結果、欠陥が積み上がり、いまや1.5か月分のコードを総点検しなければならない状況です。これが 未来の現実 です
- それでもClaudeが 観測パイプライン を持ち、データを分析した点は興味深い。しかしレポート内容が事実なら、GPT-4水準まで後退したことになる
- 私も誤って git reset --hard でClaudeが作った型定義を消してしまい、作り直すのにかなり時間がかかった。検索エンジンよりLLMに依存 するようになった現実は少し怖い
10日前にすでに予見していた（リンク）。
悪いモデルより 一貫性のないモデル のほうが危険です。信頼性が落ち、すべての出力を検証しなければならず疲れます。結局サブスクを解約するつもりです
- Claude Codeは内部の実行方式がわからず、制御もできない。ソフトウェアエンジニアリングの未来が1社に依存 するのは危険だ
- 1〜2月は音声ベースのコーディングが完璧だったのに、今は手がかかりすぎる
- 以前のコメントでも 段階的ロールアウト を指摘した人がいた（リンク）
こうした ひそかな性能低下 は衝撃的です。高品質モデルを売っておいて、こっそり弱体化させるのは顧客欺瞞です
- モデル自体を弱くしたのではなく、ハーネス（制御構造） をきつくして制約を増やした可能性もある。
  コーディングツールの複雑なラッパーがかえって性能を落とすこともありうる。トークン節約の仕組みがユーザーに不利 になっている可能性もある
- ビジネスの観点では理解できる。依然としてクエリごとに赤字で、価格も上げられない以上、品質を落とす方向に進むしかないのかもしれない。
  ただし信頼を失えば、今後の プレミアムティア戦略 も難しくなるだろう
- ChatGPTも似ていた。最初は遅いが品質が高く、数週間すると速いが 品質が急落 する
- アメリカ企業ならこういうことは驚きでもない
- 2026年にこんなことはもはや 驚くような話でもない
jqとripgrepで「early landing」メッセージを探す 監査スクリプト を作ってみた（リンク1、リンク2）。
「今日はここまでにしよう」「遅いから切り上げよう」といった文がだんだん増えている。負荷分散（load shedding） の可能性がある
- こういう文は本当にいらつく。大きな機能の設計を終えたばかりなのに「明日またやろう」と返してくる
私も似た経験がある。Claude CLIが「もう寝たほうがいいんじゃないか」「切り上げよう」といったことを言う。
stop-phrase-guard.sh ではこうした文句が多数見つかる。
締め切りを伝えたら「まだ数日あるからこれは後回しにしよう」と言ってきたので、結局「締め切りは私の仕事であって、お前の仕事ではない」と打ち返した
1月末〜2月初めに maxサブスク で実験したときは、エージェントが自力でアプリを設計・実装するほど優秀だった。
ところが1か月後には「第1段階の検証前には第2段階へ進めない」と言って 進展が完全に止まった。
Opus 4.6以降、明らかに Sonnetレベルまで劣化 した感じがする
- まったく新しいプロジェクト（グリーンフィールド）と既存コードベース（ブラウンフィールド）は違う。後者はもともとLLMが弱い
- LLMは最初は魔法のように見えるが、リファクタリングやデプロイ段階に入ると 効率が急落 する
- 私も同じ経験をした。1月は90%をClaudeで作れたが、今は最後の10%すら越えられない。昔のCodexのほうが良かった
私は作業をかなり 細かく分割 して指示するので、こうした問題にはほとんど遭わない。
各タスクをコミット単位に分け、デプロイまで自動化している。巻き戻しもしやすい
- 私もそうしている。モデルが作ったコードには必ず アーキテクチャレビュー とコードレビューが必要だ
- ただし今回の問題提起者は非常に 体系的で深い分析 をしていた。単にプロンプトの使い方が悪かったわけではない
- どれだけ作業を細かく分けても、最近はレビュー品質が落ちていて、手抜きの成果物 が増えている。締め切りが近づくと、ただ諦めているような態度を見せる