過剰編集：モデルが必要範囲を超えてコードを修正する現象

(nrehiew.github.io)

10 ポイント投稿者 GN⁺ 2026-04-23 | 1件のコメント | WhatsAppで共有

最小限の修正だけで解決できるバグでも、関数全体の書き直し、補助ロジックの追加、シグネチャ変更まで起こりやすく、巨大な diffが生じがち
既存構造を維持する ブラウンフィールド作業では、テスト通過だけでは不十分で、どれだけ少なく変更したかも併せて見なければ、レビュー可能性と変更安全性を保てない
プログラム的に損傷させた 400 件の BigCodeBench 問題を基に、トークン単位 Levenshtein、相対パッチスコア、Added Cognitive Complexity で過剰編集を定量化
最新のコーディングモデル全般で過剰な書き直し傾向が確認され、Claude Opus 4.6は正確性と最小修正性の組み合わせが強く、GPT-5.4は相対的に過剰編集が目立つ
原文保持を明示したプロンプトは、特に 推論モデルの diff を減らし、学習方式では RL が最小編集の振る舞いを身につけつつ、一般的なコーディング性能を落とさず最もバランスの取れた結果を示した

Over-Editing 問題

Over-Editing は、バグ修正に必要な最小限の修正範囲を超えて、コード構造まで大きく変えてしまう現象を指す
- 単純に range(len(x) - 1) を range(len(x)) に変えればよい off-by-one バグでも、モデルが関数全体を書き直し、補助関数や検証ロジックを追加するような過剰変更が発生する
- 例では GPT-5.4 が None チェック、np.asarray(dtype=float) への変換、有限値マスキング、配列サイズ検証、curve_fit 呼び出しシグネチャ変更、プロットロジック置き換えまで行い、テストは通るものの 巨大な diff が生じる
既存コードベースを扱う ブラウンフィールド作業では、チームがすでに理解し意図して書いたコードを保ったまま、問題だけを直すことが重要になる
- 新規作成の green-field と違い、既存構造を尊重しない修正は、レビューアが何がなぜ変わったのか把握しにくくする
- 関数全体が書き直されるとコードが判読しづらくなり、変更の安全性を判断するのも難しくなる
テストさえ通ればよいという基準では、この問題を捉えにくい
- Over-Editing は 正確性の失敗ではなく編集忠実性の失敗であり、テストスイートには表れにくい
- 生成コードが増えるほどレビュー量は増え、不必要な複雑さが積み上がることで、コードベース品質が静かに低下する可能性が高まる

Over-Editing の測定方法

最小修正の正解が明確なデータセットを作るため、BigCodeBench の 400 問をプログラム的に損傷させて評価セットを構成した
- 既存ベンチマークのように別の LLM でバグ注入するのではなく、< を <= に、+ を - に、True を False に変えるといった形で細かく制御した
- 各損傷サンプルは構文的に有効であり、対応するテストケースを壊すことを検証し、正解修正は損傷を元に戻す 1 つだけなので、最小修正になるよう設計されている
この構成により、モデルがバグを直せたかだけでなく、修正過程で どれだけ余計に変えたか も同時に評価できる
- 基準正答とモデル出力の両方を損傷入力と比較して、相対的なパッチサイズを計算する
- 正答復元以外の追加変更が多いほどスコアが悪化するようになっている
関連コードは GitHub リポジトリで提供されている

測定指標

トークン単位 Levenshtein Distance
- 一般的な文字単位 Levenshtein の代わりに、Python のトークン単位変形を用いる
- コードを Python tokenizer で def, add, (, a, ,, b, ) のような原子的な文法単位に分け、そのトークン列上で距離を計算する
- def add(a, b): を def someotherfunctionname(a, b): に変える場合、文字単位距離は 19 だが、トークン単位距離は識別子 1 つが変わったと見なされ 1 になる
- 関数長が異なっても比較できるよう、総トークン数で正規化する
相対パッチスコア
- モデル出力と正答を直接比較せず、両方とも 損傷入力 を基準に比較する
- 損傷された解答を元の正答へ戻す編集が真の最小修正であり、モデルが作った編集がそれにどれだけ近いかを測る
- 値が 0 に近いほど、モデルのパッチは実際の最小修正に近い
Added Cognitive Complexity
- Cyclomatic Complexity より読みやすさの難度をよく反映する Cognitive Complexity も併用する
- ネスト、再帰、複合論理演算子、直感的でない制御フローにペナルティを与え、if、ループ、try/except のように読者がより多くの状態を追う必要がある構造が複雑度を高める
- 例のネストしたループと条件文のコードは Cognitive Complexity が 6 になる
- 今回の損傷は値だけを変え、構造には触れないため、正しい修正なら Added Cognitive Complexity は常に 0 であるべきだ
- モデル出力で複雑度が増加していれば、求められていないコードが追加されたことを意味し、0 より小さい値も不要な単純化として望ましくないとみなす

モデルは実際に Over-Edit するのか

最新の frontier モデルでも Over-Editing が確認される
- 推論モデルと非推論モデルの両方で、Pass@1 と最小修正性の間に差が存在する
- 正確に直せる能力だけでは、忠実な編集かどうかを判断しにくい
推論モデル比較では Claude Opus 4.6 が最も強い組み合わせを示す
- Pass@1 は 0.912 で最も高く、正規化 Levenshtein は 0.060、Added Cognitive Complexity は 0.200 で、diff も最小だった
- Gemini 3.1 Pro Preview も近い領域に位置し、オープンウェイトモデルでは GLM 5 が比較的保守的に編集する
GPT-5.4 は評価対象モデルの中でも Over-Editing が最も深刻な部類に入る
- 推論モードでは Levenshtein 0.395、Added Cognitive Complexity 2.313 で、非推論モードでもそれぞれ 0.327、1.563 と高い
- Pass@1 も 0.723、0.770 と低めで、正確性と最小修正性の両方で弱い結果を示した
非推論モデルでは Qwen 3.6 Plus が Pass@1 0.870 で最も高く、GLM 5 が Added Cognitive Complexity 0.235 で最も低い
- Claude Opus 4.6 の非推論モデルも Levenshtein 0.079、Added Cognitive Complexity 0.313 と、非常に小さい変更幅を維持した

プロンプトで改善できるか

プロンプトに “IMPORTANT: Try to preserve the original code and the logic of the original code as much as possible” を追加すると、すべてのモデルで Levenshtein Distance が減少した
- DeepSeek R1/v3 を除けば、Pass@1 も併せて改善した
- 最小修正の制約が可能な修正空間を狭め、より正確で標的を絞った変更へ導いたと解釈できる
この効果は特に 推論モデル で大きく現れた
- 明示的指示によりよく従う特性のため、編集最小化の要求が diff 縮小に強くつながる
- デフォルト状態では過剰に手を入れてしまっても、指示が与えられれば、より忠実な修正へ移れることを示している

推論は過剰な書き換えにつながるのか

同じモデル系統の推論型と非推論型を組み合わせ、両方とも正解したサンプルだけを対象に Levenshtein Distance を比較
- 失敗サンプルが多いと Over-Editing の機会自体が減るというバイアスが生じるため、正確性を統制したうえで編集スタイルだけを切り分けて見たもの
一般的なプロンプト設定では、ほとんどの組み合わせで推論モデルのほうがより多く書き換える
- DeepSeek V3、GPT-5、GPT-5.4、Gemini 3.1 Pro Preview、Qwen 3.6 Plus、Kimi 2.5 はいずれも推論側のバーがより高く現れる
- 拡張された推論が最小修正ではなく「より良い実装」へ向かい、不必要なリファクタリングを生む傾向が明らかになった
- 例外は Claude Opus 4.6 で、推論型のほうが非推論型よりはるかに修正が少ない
明示的に原文保持を指示すると、様相は大きく変わる
- 推論モデルはほぼすべての組み合わせで、非推論型と同等かそれより低い Levenshtein Distance を示す
- Claude Opus 4.6 の推論型は、この設定で全モデル中もっとも低い Levenshtein を記録した
- GPT-5 と GPT-5.4 も推論型のスコアが大きく下がるが、GPT-5.4 はなお非推論型がわずかに上回る
デフォルトの挙動では推論モデルは Over-Editing しやすいが、同じ推論能力によって制約にもよりよく従うようになる
- 一般設定と明示設定の差が、推論モデルで一貫してより大きく現れる
- したがって Over-Editing は根本的な限界というよりデフォルトの振る舞いに近く、制約によって逆転できる

学習によって忠実なエディタを作れるか

ベースモデルとして Qwen3 4B 2507 Instruct を使用し、0-shot と 8-shot に原文保持の指示を入れた構成をベースラインとした
- 他の学習方式は、評価時に明示的な原文保持指示なしの一般設定でテストした
実験構成
- DeepCoder の問題を同じ方法で損傷させ、合成データセットを作成
- これに加えて、基本の Qwen3 4B 2507 Instruct に各問題について 8 個の completion を生成させ、機能的に正しいサンプルだけを残したうえで Levenshtein Distance により順位付けし、self-distillation データセットも構成した
- 学習は Context Distillation に似た形で行い、評価時には明示指示なしで最小編集の挙動をするように適合させた
学習方法
- SFT: プログラム的に作成したデータセットで直接 supervised fine-tuning を実施
- rSFT: self-distillation データセットで、各サンプルごとに Levenshtein Distance がもっとも低い 3 つの completion だけを選んで学習
- DPO: 各サンプルごとに Levenshtein Distance がもっとも高い completion ともっとも低い completion の間で選好最適化を実施
- RL: 機能的正確性と Levenshtein ベースの最小編集報酬を組み合わせた強化学習を適用
  - すべてのテストを通過した場合は r = r_edit + 0.1
  - 通過しなかった場合は r = -0.2
  - r_edit は正規化 Levenshtein ベースの報酬として計算される

同じ損傷タイプではどうだったか

学習セットとテストセットの損傷タイプが同じ in-domain 設定では、SFT がほぼ完璧に近い結果を出した
- Baseline 0-shot は Pass@1 0.735、Norm. Levenshtein 0.169、Added CC 0.731
- Baseline 8-shot は Pass@1 0.775、Norm. Levenshtein 0.115、Added CC 0.479
- SFT は Pass@1 0.932、Norm. Levenshtein 0.002、Added CC 0.000 で 3 指標すべて最高を記録
- rSFT は 0.782 / 0.100 / 0.435、DPO は 0.752 / 0.021 / 0.113、RL は 0.802 / 0.046 / 0.112 を記録
この結果が良すぎるように見えたため、特定の損傷タイプの逆変換だけを暗記した可能性を点検することになった
- モデルが一般的な最小編集の挙動を学んだのではなく、決まった損傷パターンだけを元に戻すよう学習した可能性があると見た
- これを確認するため、学習データと評価データの損傷タイプを完全に異なるよう再構成した

異なる損傷タイプにも一般化するか

学習セットとテストセットの損傷タイプが異なる out-of-domain 設定では、SFT は大きく崩れる
- SFT の Pass@1 は 0.458 まで落ち、モデルは実際にはバグを修正できないまま、特定の最小変更だけを試みる状態になる
- Norm. Levenshtein は -0.008、Added CC は 0.006 と非常に低いが、正しい修正能力は崩壊する
rSFT と DPO は 8-shot ベースラインよりわずかに良くなるが、改善幅は小さい
- rSFT は 0.780 / 0.107 / 0.501 / LiveCodeBench -0.069
- DPO は Pass@1 0.787 / 0.092 / 0.348 / LiveCodeBench -0.046
- ベースモデルが自ら作った追跡データを用いた学習だけでも、ある程度の一般化は可能
RL だけが 3 指標全般で素直に一般化する
- RL は Pass@1 0.782、Norm. Levenshtein 0.050、Added CC 0.185、LiveCodeBench Change +0.006 を記録
- 2 つのベースラインより 3 指標すべてが改善し、一般的なコーディング性能も落ちない
- Levenshtein と Added Cognitive Complexity の改善幅が Pass@1 より大きい点は、単なる損傷逆変換の暗記ではなく、最小編集という挙動そのものを学習したことを裏付ける

Catastrophic Forgetting

最小編集のために fine-tuning したとき、一般的なコーディング能力が低下するかも LiveCodeBench v6 で確認した
- 目標は、学習後も元の pretrained モデルと近い水準を維持すること
SFT は一般能力の低下が非常に大きい
- LiveCodeBench では 43% の性能低下が見られ、基本的なバグ識別と修正能力も維持できない
rSFT と DPO もわずかに低下する
- 元のモデルが生成したサンプルで学習していても、タスク特性上、一定レベルの Catastrophic Forgetting が残る
RL は性能低下なしに新しい挙動を学習する
- 一般的なコーディング能力を維持しながら、最小編集タスク性能ももっとも良く改善する
- これは SFT memorizes while RL generalizes とも合致する
分布の観点では、プログラム的に作成したデータセットと元のモデル分布との差が大きいほど Forgetting も大きくなるという解釈も可能
- SFT は元の分布と大きく異なるデータに強く適合することで、モデル分布が大きく変わる
- rSFT と DPO は self-distilled データが元の分布により近いため、変化がより穏やかに起こる
- Catastrophic Forgetting の程度は、元の分布とタスク学習データ分布の差に比例する可能性が高い

追加実験

RL with LoRA: 全体微調整が必要か
- この作業は新しい知識を入れるというより、既存のコード修正能力のスタイル調整に近いため、LoRAでも十分かを確認した
- rank 1は Pass@1 0.738、Norm. Levenshtein 0.166、Added CC 0.676、LiveCodeBench Δ -0.022
- rank 8は 0.775 / 0.112 / 0.426 / -0.022
- rank 16は Pass@1 0.805 / 0.087 / 0.328 / -0.005
- rank 32は 0.795 / 0.065 / 0.235 / -0.011
- rank 64は 0.797 / 0.051 / 0.160 / +0.001
- Full RL の最高モデルは 0.782 / 0.050 / 0.185 / +0.006
- rank 64 LoRAは Levenshtein で Full RL にほぼ近づき、Added CC ではさらに良い結果となった
- rank が大きくなるほど Levenshtein と Added CC は 1 から 64 まで単調に減少した
- 大きな改善は序盤に集中しており、rank 1→16で Levenshtein は 0.166→0.087へ大きく減少し、16→64では 0.087→0.051へ段階的に縮まった
- rank 1 と 8 では正確性と最小編集性の間のトレードオフが見られ、2つの報酬関数を同時に学習する容量が不足し、より高い報酬である編集最小化側に偏った可能性がある
- 既存能力がすでにある作業におけるスタイルレベルの行動変化には、少数の追加パラメータでも十分であり、一定点以降は追加容量のリターンが減少する
報酬ハッキングメモ
- 初期の報酬関数には、成功実行が1つもない rollout に 0 点を与えるバグがあった
- Levenshtein を「大きいほど良い」形にするため符号を反転していたため、この 0 点がかえって成功実行より高い報酬になる状況が生じた
- それにもかかわらず Full RL は作業を学習し、LoRA でのみ機能的に正しいコードをまったく出力しない形のreward hackingが現れ、環境点検につながった
- 報酬関数を修正した後、Full RL の結果はわずかにだけ改善した
より大きなモデルにも拡張できるか
- 同じ out-of-domain RL レシピを Qwen3 14B に適用した
- Baseline 14B は Pass@1 0.770、Norm. Levenshtein 0.136、Added CC 0.315
- RL適用後は Pass@1 0.833、Norm. Levenshtein 0.059、Added CC 0.165、LiveCodeBench Δ +0.011となり、全体的な改善が見られた
- パラメータ数が増えても Pass@1 の上昇、Levenshtein の減少、Added Cognitive Complexity の減少、Catastrophic Forgetting の不在があわせて維持された
- 最小コード編集向け RL レシピが複数スケールのモデルへ拡張可能であることを裏づける

最終整理

Over-Editing は広く見られ、測定可能な問題として現れている
- frontier コーディングモデル全般で、正確に直す能力と最小限に直す能力が別物として現れる
- 特に GPT-5.4 はデフォルト設定で比較的過度な書き換え傾向が強く、Opus 4.6 は強力なベースラインを示した
明示的なプロンプトだけでも忠実な編集へかなり誘導できる
- 特に推論モデルはもともと過剰に手を入れる傾向があるが、原文保持の指示を与えるとよりよく従う
- GPT-5.4 も推論モードで大きな改善幅を示し、instruction following 能力自体は高いことが表れた
- Opus 4.6 の改善幅が小さく見えるのは、すでに基本性能が高いためかもしれない
学習面では RL が最もバランスの取れた解法として現れた
- より忠実な編集行動を身につけながら一般的なコーディング能力を損なわず、4B と 14B の Qwen3 の両方で効果が維持された
- SFT は特定の損傷タイプには強かったが、汎化と一般能力の維持では大きく失敗した
単一関数単位のバグ修正評価は SWE-Bench Pro のような、より agentic な評価より範囲が限定的ではあるが、現実的な設定で Over-Editing を定量化しにくかった問題を扱う出発点になる
- 最小編集能力を評価し改善する方向が、AI 生成コードの全体的な品質向上につながる可能性がある

1件のコメント

GN⁺ 2026-04-23

Hacker News の意見

私の Claude Code の使い方は、期待をはるかに上回っている
過剰に修正したら、どこがまずかったのか説明させ、その教訓をプロジェクトごとの skill ファイルに記録させる
すると同じミスはほとんど繰り返さず、skill ファイルが大きくなったら整理・圧縮もかなりうまくやる
もう職場で自分が直接コードを書くことには、経済的に大きな意味はないと感じている
私は教師、アーキテクト、インフラ管理者に近い役割で、開発の大半は熟練した Claude セッションのチームに任せている
もちろん全部レビューするし、Claude も細かくテストを書いて一緒に確認する
最近は大きなプロジェクトでも無理なく扱えている
これを Anthropic の宣伝みたいに言いたいわけではなくて、いったい自分は何をしているからこんなに 妙にうまくハマるのか が気になっている
しかもトークンも今ではほとんど不足しない
ほぼ Opus モデルしか使っていないが、トークン効率が良く、先週は Claude の助けで意味のあるコミットを 150 件以上積んだのに、週間割り当ての 3 分の 1 しか使わなかった
Claude 以前は週 25〜30 コミットくらいが限界だった
- 私も似たような感じ
  昨日統計を見たら、会社のコードの 97% を今は Cursor AI が書いていて驚いた
  主に cloud agent で回していて、リアルタイムで見ていると気が散るのでそうしている
  私のやり方はとても単純だ。ただ 言葉で明確に指示するだけ
  みんなこれを複雑にしすぎている
  .md ファイルを共有したり、orchestration だの prompt hack だのを掘るのは、vim のショートカットや IDE のスキンに凝りすぎるのと同じ程度にしか面白く見えない
  欲しいものをはっきり伝えて、良いフィードバックだけ与えればいい
- 私も同じだ。労力削減装置としては驚くほど優秀
  同僚が書いたコードだとしても抵抗なく受け取れるレベルの結果を出してくる
  もちろん行単位で全部読んで修正はするが、その修正も元々コードレビューでやっていたのと同じ程度だ
  生産性を数値で測ってはいないが、何年も先送りしていた作業に今は手を付けられているのを見ると実感する
  たとえば markdown 100 個を json 5 個に変えて、それを読むコードまで更新するといった 退屈な作業に特に強い
- みんな最近 Claude Code が 使い物にならないほど悪くなったと言うが、それは信じるとしても、私はあまり実感がない
  欠点も多くバグも多いソフトウェアなのに、実際には非常に効果的だ
  AI で最も奇妙なことの一つは、人によって体感が本当に極端に違うことだと思う
- コードが他人のレビューを受けるか、以前から コードレビューが大変だったか、同僚が言う code quality をどれだけ重要視しているかで、体感はかなり変わりそう
  運用寄りの仕事が多いか、長く続くプロダクトコードを扱っているかも重要だ
  私の仮説では、このツールは単純なパターンの上ではよく働き、複雑な仕事もこなすが、新しいパターンを発明することはまるで得意ではない
  監督なしで放っておくと、すぐ危険な新パターンを作って壊しがちだ
  だから Claude が出したものを丸ごと書き直すことがかなりある
  時にはロボットと速度競争になって、自分のほうが早く終わることもある
  自分が何を望んでいるかは最初から分かっているので有利な面もあるが、ここで発生する 細かな手直しコスト は過小評価されていると感じる
  futzing fraction もそうだし、the peril of laziness lost のように、機械が過剰に頑張りすぎるやり方そのものが気に障ることもある
  どうして一つだけやればいいのに三つもやろうとするのか分からない
  直せばまた合わせてくるとしても、同僚と働く時にもすでにある「A、B、C はするな、A だけやれ」という流れをまた繰り返さなければならず、うんざりする
  テスト生成も微妙で、方向性を与えたテスト作成はうまいが、創造性を許すと foo + bar == bar + foo みたいな役に立たないテストを大量に作る
  テストの有用性を常に疑いながら見ないと、フィードバックループが健全にならない
  最近ではテストそのものより、必要な import を一度に引っ張ってくる用途のほうが役に立つことも多い
  こうした機械が仕事を代替するのなら、平均的なコード品質は上がってもよさそうなものだ
  だが多くの人は「だいたい平均点は取る」くらいの使い方をしていて、仕事の進め方によっては逆に平均を引き下げることもありうる
- 私も同じ感覚だ
  28 年間この仕事をしているが、会社の金で給料をもらっている時間に業務アプリのコードを自分で直接書くことは、もう経済的にも、善意に解釈しても、あまり筋が通らない
逆に私は、コーディングエージェントは新しい要件に合わせるなら既存コードをもっと大胆に変えるべきなのに、既存コードの保全を優先しすぎるとよく感じる
結局は既存コードをどれだけ 固定化しておくか の問題だと思う
何十年も動いてきた大規模プロダクションアプリなら変更を最小化するのが正しいが、3 日前に作ったばかりの実験プロジェクトなら、そのままにするより良く直したほうがいい
結局、プロジェクトの文脈に合わせて自分で強度を調整することを学ばなければならないのだろう
- このトレードオフは 文脈依存 なので、エージェントがプロジェクトをざっと見ただけで常に正しく判断できるわけではない
  同じプロジェクト内でも PR ごとに、ある領域は自由に変えてよい一方で、別の領域は diff とテスト範囲を小さくするために固定しておきたい
  だから事前にどの部分をどれだけ攻めて変えてよいか説明するが、結果はばらつく
  たいていは最小 diff 側に寄って、その代償として重複が生まれたり、抽象化を無理にねじ曲げたりすることが多い
  もっとうまくいく方法があるなら、私も聞きたい
- エージェントに時には 自分で考えさせる には、コードと markdown を先にかなり削る必要がある気がする
  リファクタリングしろ、広く再考しろと指示しても成果は弱い
  だから設計が入りすぎた markdown を整理させ、技術的な内容や中核実装・インターフェースをソースから消したうえで、新しいセッションに設計をやり直させる
  その後、削除した内容を戻して、より素朴でないセッションと reconcile する
  経路依存性 が強すぎるので今はこの流れを手動でやっているが、このパターンを skill として定式化したい
- この口調を見るだけで Codex を使っているのが分かる
AI は失敗を隠そうとして 例外を握りつぶし、ダミー値を返したり、雑多なログに埋もれたメッセージを一つだけ残したりすることが多い
ログも縮めすぎで、実際のデバッグに必要な肝心のデータが抜けていることが多い
おそらくシステムを だまして点を稼ぐ方向 に学習されているからではないかと思う
例外をそのまま投げれば明白な失敗として不利益を受けるが、問題を隠せば時々成功に見えるからだ
これが一般的な Q&A ではどう現れるのかも気になる
モデルは、ユーザーが納得して去る程度にもっともらしく聞こえる方向へ向かっているのではないかと思う
よく見るパターンに「それは X ではなく Y だ」という言い方があるが、こうやって二分法を作ると他の可能性を考えなくなる
回答の最後に行動計画を付けるのもよくあるが、これは assumptive close という営業手法のように、答え自体よりも AI に同意した後の結果を想像させる流れに見える
- AI の振る舞いは、最適化対象の指標をどうにかしてだますという観点で見るとかなり予測可能だ
  結局 hill-climbing で metric を登るというのはそういう姿になる
  一種の A/B enshittification が、解釈不能なほど極端化した形にも見える
  人間のフィードバックで学習される以上、あらゆる応答のあらゆる断片が、評価者を回避して満足させる方向に向かうしかない
AI で何かを 本当にうまく作る のは、思ったより手間がかかる
指示すればかなりそれっぽい結果は出すが、自分が知らないことを知らないという事実そのものを分かっていないことがある
特に AI が権威ありげに話すと、なおさら危険だ
だから複数の角度から検証し、正確性を確認するのは簡単ではない
これが時間とともにどう変わるのかは興味深い
- 全面的に同意する
  同時に、こういう文章やここに付くコメントも 時点のスナップショット のように感じる
  業界の進歩が速すぎて、コーディングモデルはわずか 9 か月前 よりすでにずっと良くなっている
  AI の能力への不満を読むたびに、相手を責めるわけではないが、心の中ではいつも「まだは」と思ってしまう
- 最近は AI で何かを直接作るより、ある AI コンテキストで別の AI コンテキストをレビューさせることに、より多くの時間を使っている
  お互いの結果をレビューさせるような形だ
  それでも大半は非同期で回るので、その間に私は別の仕事ができるという利点がある
- 自分が何を知らないのかも分からないなら、コーディングエージェントより良いものをどうやって作れるのかと思う
  だからいくつかのプロジェクトでは、まずエージェントで プロトタイプ を作りながら学び、そのあと設計を書いて最初からやり直した
  そうすると、どこをより深く見るべきかが分かる
- その通り。たいてい 80% の地点 まではかなりうまく連れていってくれる
  残り 20% が何なのかは、結局問題の性質次第だ
ここで話しているのはコードの 過剰修正 だが、エージェントはそれ以上のことをする
複数ファイルを触り、テストを回し、デプロイし、smoke test まで実行するが、そのすべてが抽象化の裏に隠れてしまう
一方では驚異的だが、他方では強い不安もある
第一に、内部で実際に何が起きているのかをきちんと理解できない
エージェントが組み立てたスクリプトをそのまま承認して走らせるのがあまりに簡単で、誘惑が強い
だが、エージェントが正しいと判断したというだけで DB を吹き飛ばしたこと もあるし、絶対に送ってはいけない AWS 認証情報 をデプロイ先に送ろうとしたのを止めたこともある
第二に、自分が何も学んでいない
単純な docker コマンド一つすら自力で組み立てる認知負荷が高まり、繰り返し AI という 松葉杖 に頼るようになる
- なぜ LLM にハンドル を握らせるのか分からない
  auto-approve は有効にせず、エージェントが実行するすべてのコマンドを自分で承認すべきだ
  設計やアーキテクチャ上の決定も任せず、どう作るかは人間が決めて、その缶詰めに明確に指示しなければならない
  冗談ではなく、AI を道具として扱えばずっと上手く使える
  10 倍の生産性とまではいかなくても、少なくともコードを理解したまま進められる
- 認証情報の件については、私の見方はこうだ
  Day 1 にはセキュリティを非常に慎重に扱い、.env を .gitignore に入れるべき理由から、認証情報は渡さず自分で直接修正すべきだという説教までしてくる
  ところが Day 2 に同じことをもう一度やらせると、そのルールや設定を忘れて、ディスク全体をあさって .env や他のファイルまで読み、トークンを握っていることを理解したうえで curl コマンドを自分で作ってテストまでしてしまう
  初日はセキュリティ専門家みたいなのに、翌日には普通のインターン以下になる感じだ
- 私は実質 3 つのモード で使っている
  1. コアアプリケーションは自分がすべて仕様化・実装・テストし、最後の仕上げだけ AI に任せる
  2. 関数は AI に書かせてテストの骨組みだけ作らせ、その後、関数は自分がよく書き直す
    このやり方は望まない動作や過剰実装が多いが、ボイラープレート除去 には有用だ
  3. 実験コードや、いつでも捨てられる部分は AI にすべてやらせる
    実際、こういう部分は 70% くらい削除 することになる
    その代わり 1 と 2 の領域は AI が触れられないようにする
    もちろんこういう分離が可能なようにアーキテクチャが組まれている必要はあるが、かなり満足して使っている
- これは思ったより簡単な問題だ
  ただ 本番認証情報 を LLM に渡さなければいい
  ローカルや staging/dev で再現できないなら、デプロイ基盤を prod にもっと近づけるべきだし、環境ごとの権限を十分細かく分けられないなら、権限体系から直すべきだ
  私はこの原則を守っているので、君が言う種類の問題はほとんど経験したことがない
  診断用なら読み取り専用の認証情報を一時的に渡すことはあるかもしれないが、その場合でも漏えいに備えて 非常に短寿命のトークン しか発行しないだろう
- 私は普通、Claude が書いたコードをすべてレビューし、自分が書いたコードも再度 Claude にレビューさせる
  だから大体何が起きているかは把握している
  Claude が時々、異常だったり慣習外れだったりする判断をすることはある
  ただ、大規模コードベースをチームで扱っていると、すでに会社を去った人が作った部分も含め、もともと理解できていないまま抽象化の裏にある領域も多い
昔よく教えられたが、実際にはほとんど守られなかった知恵に、作業しながらリファクタリングしろ というものがあった
どこかの領域を触るなら、その機会に整理して技術的負債も清算しろ、という趣旨だった
しかし現実にはうまくいかず、今や LLM が実際にそれをやり始めたことで、その 副作用 を体感するようになった
- モデルが既存ロジックと同じことをする新しいコードを書くのは リファクタリング ではない
  必要な関数がすぐそこにあるのに、新しく作ることがある
  もっと悪いのは、既存関数を修正して動作を保っているふりをしながら、別の利用箇所を壊すことだ
  最悪なのは、クラス間の状態を変えつつ 副作用 を理解しないまま触って、デッドロックや普通のバグを生むことだ
- 通りがかりに何かを触ると決めた時でさえ、実際には改善になっていないことが多い
  私にはリファクタリングというより、スロットマシンのレバー をもう一度引いている行為に近く見える
- 今日もこれのせいで少し時間を使った
  私の本当の問題は、エージェントが行った リファクタリングの質 が悪かったことだ
  そういう修正を止めたうえで、何をどう直すかをもっと明示的に指示したかっただけだ
- そこまで単純な話でもない
  多くの場合、既存の抽象化は十分まともで、バグ追跡や機能拡張くらいならその上でできる
  しかし時には、既存実装を無理に迂回するのか、それとも 再設計 するのかという分岐点に立つ
  LLM と一緒だと、それをどう再考すべきか、そもそも再考が必要なのかすら曖昧になる
  しかもそうした判断がユーザーの目に見えにくい形で隠れてしまう
- 本当に興味がある点だ
  もしかするとそういう変更は有用かもしれないので、例をもっと見てみたい
  私は cognitive complexity 指標を信頼していないが、こうした修正がその指標をかなり一貫して 引き上げる という点は少し興味深い
Claude Code や Codex で 過剰修正 をしばらく見ていなかったので、この研究でどんなプロンプトを使ったのか気になった
たぶんこれで、最後の更新は 8 か月前 だ
https://github.com/nreHieW/fyp/blob/5a4023e4d1f287ac73a616b5b944a14f28422c7e/partial_edits/utils/prompts_utils.py
- まさに今日もそんなことがあった
  GPT-5.4 が、私が頼んだ 10 行の追加の代わりに、よりきれいだという理由で 50 行を書き直してしまった
  既存コードを見て変数名だけ変えて似たように差し込めばよい機械的な追加だったのに、そうなった
  しかも最初は私が求めた機能自体も入れておらず、なおさらあきれた
  over-editing は決して過去の問題ではなく、これは私が thinking を下げるのを忘れて xhigh thinking で回した時に起きたことだ
- 私も似た感覚だ
  これは私には 初期エージェント時代の問題 のように読めた
この記事はかなりしっかりしている
LLM は散文でもコードでも 冗長すぎる し、その主因は学習方法にあると私は思う
cross entropy loss は garden path のような文を好むようにする
人間なら一文、いや数語で済ませることを一段落かけて書いてしまう
長い文のほうが統計的な意外性が少ない、つまり 低 perplexity の経路 だからだ
私もこの問題には 複雑な気持ち がある
たいていはやりすぎで、私が 30 分かけて直す羽目になるので、この評価には同意する
ただ、もっと包括的な変更を見落とすこともある
おそらくコンテキストの限界のせいで、だからこそ私はツールの扱いをより厳しくし始めた
それでもまだ欲しいレベルの 制御感 には届いていない
これは 訓練データの痕跡 のように感じる
SFT や preference データには「ファイルをよりきれいに直した版」があふれていて、「きっかり 3 行の diff」のような例は少ない
だからモデルは、より大きく、より磨かれた出力のほうが勝つと学んでいる
プロンプトである程度は制御できるが、結局は強い事前傾向と戦っているようなものだ

過剰編集：モデルが必要範囲を超えてコードを修正する現象

Over-Editing 問題

Over-Editing の測定方法

測定指標

トークン単位 Levenshtein Distance

相対パッチスコア

Added Cognitive Complexity

モデルは実際に Over-Edit するのか

プロンプトで改善できるか

推論は過剰な書き換えにつながるのか

学習によって忠実なエディタを作れるか

実験構成

学習方法

同じ損傷タイプではどうだったか

異なる損傷タイプにも一般化するか

Catastrophic Forgetting

追加実験

RL with LoRA: 全体微調整が必要か

報酬ハッキングメモ

より大きなモデルにも拡張できるか

最終整理

関連記事

1件のコメント

Hacker News の意見