AIコーディング支援ツールはますます悪くなっているのか？

(spectrum.ieee.org)

10 ポイント投稿者 GN⁺ 2026-01-10 | 1件のコメント | WhatsAppで共有

最近、AIコーディング支援ツールの全体的な品質低下が見られ、作業速度と結果の正確性が以前より悪化する傾向
最新の**大規模言語モデル（LLM）は文法エラーを減らす一方で、実行はできても結果が間違っているサイレントフェイル（silent failure）**をより頻繁に生み出している
実験ではGPT-5はエラー原因を明らかにせず値をでっち上げる形で問題を覆い隠す一方、GPT-4とClaude旧バージョンはデータやコード自体の問題を比較的明確に露出させる
こうした変化は、ユーザーの受け入れ有無を学習シグナルとする過程でデータ品質が曖昧になった結果と結びついている
短期的な実行成功よりも高品質データと専門家による検証に投資しなければ、モデルが自ら作った誤りを再学習する悪循環に陥る危険が高まる

AIコーディング支援ツールの性能低下現象

ここ数か月の間に、AIコーディング支援ツールの作業効率とコード信頼性がそろって低下
- 以前はAI支援で5時間かかっていた作業が、今では7〜8時間以上かかるケースが増加
- 一部のユーザーは安定性を理由に前世代のLLMを再び選択
AI生成コードを人手を介さず実行するテスト環境で、この変化が繰り返し観察されている

新しいモデルで目立つ「サイレントフェイル」

過去の問題は主に文法エラーや明確な論理エラーで、実行段階で即座に表面化していた
最新モデルは見た目は正常に動くが意味が誤っているコードを生成する傾向を強めている
- 安全チェックの削除
- 出力形式だけ合わせた偽の値の生成
こうした潜在的なエラーは発見が遅れ、その後の工程でより大きなコストと混乱につながる
現代のプログラミング言語が速く、明確に失敗するよう設計された理由と真っ向から衝突する

単純なテストで明らかになった違い

存在しないカラムを参照するPythonコードのエラーを複数のChatGPTバージョンに提示
- GPT-4: エラー原因を指摘するか、デバッグを促す応答が大半
- GPT-4.1: データフレームのカラムを出力して問題を確認するよう誘導
- GPT-5: 実際のインデックスを使って計算を実行し、コード実行の成功を装いながら、結果として無意味な値を生成
Claudeモデルでも似た流れを確認
- 旧バージョンは問題認識重視
- 新バージョンはエラーを無視したり回避したりする解決策を提示

学習方式と品質低下のつながり

初期モデルは大量の既存コードを学習することが中心で、エラーは多かったが問題そのものを隠しはしなかった
その後、IDE統合とともに**ユーザー行動（コードの受け入れ・実行成功の有無）**が学習シグナルとして活用されるようになった
初心者ユーザーの増加により、動きさえすれば良いコードと見なされるシグナルが蓄積され、モデルがこれを学習
- その結果として安全チェックの削除、偽データの生成のような不正確なパターンが強化
自動化されたコーディング機能が増えるほど人間の検証が減り、モデルが誤った学習を繰り返すようになる

今後必要な方向性

AIコーディング支援ツールは依然として開発生産性とアクセシビリティを大きく高めるツール
しかし、実行成功偏重の学習は長期的にコード品質を損なう
専門家がラベリングした高品質データの確保と責任ある再学習プロセスが不可欠
そうでなければ、モデルは誤った出力 → 誤った学習 → さらに悪い出力という循環構造に陥る可能性が高い

1件のコメント

GN⁺ 2026-01-10

Hacker Newsの意見

AI推進派が自分の生産性向上を語るときは主観的な経験に頼る一方で、反対意見には過剰な立証責任を求めるのが興味深い
- 以前LinkedInで「AIで仕事のスピードが10倍になった」という投稿を見たことがある
  投稿者は実際にライブ配信デモを予告していたが、結果的に単純な拡張作業ひとつを1時間かけても終えられなかった
  自分で手作業でやっても同じくらいの時間だったと思う
  そこでコメントで「10倍向上はどこにあるのか」と尋ねたところ、彼は「一時的なエラーだった」とか「AIが答えている間に別の作業ができた」といった具合に否定した
  正直最初は懐疑的だったが、自分の懐疑が間違っていてほしいと思っていた。だが違った
- こうした主張は反証不能だ。「秘密のワークフロー」があるとか、「君は正しく使えていない」といった形で逃げる
  結局、生産性向上の主張に対する立証責任は完全に主張する側にある
- 私は専門のプログラマーではないが、AIを反復作業を減らすための道具として使えば大きな効率が得られると感じている
  AIに独創的な思考ができるとは思わない。その代わり、タブ補完機能がループやエラー処理、ドキュメント化などで多くの時間を節約してくれる
  問題解決そのものの速度は変わらないが、実装段階では確かに速くなる
  つまり、「10倍向上」というなら問題解決ではなくタイピング速度が10倍になったということだ
- 私の場合、ここ数か月でAIはかなり良くなった。計画モードで作業を細分化し、実行–検証–テスト–レビュー–デプロイを繰り返している
  C#ベースの100万行規模のプロジェクトでも品質低下なしに生産性が大きく向上した
  批判的な人たちには「実際に見せてほしい」と言いたい。秘密の技術ではなく、単にツールの扱い方を身につけるのに時間がかかっただけだ
- 1年以上こういう「AIで10倍速くなった」という投稿を見続けてきた
  なのに、なぜ彼らは自分が作った驚くべき成果物を見せず、わざわざ私を説得しようとするのだろうか？
  もしかすると報酬やインセンティブがあるのではないかと疑ってしまう
問題はAIが悪くなったことではなく、結果の再現性が低いことだ
配車やデリバリーアプリのように、LLMのエコシステムも結局は値上げ前提の構造に向かう気がする。今は投資資金による補助金状態にすぎない
- タクシー料金には燃料費などによる下限があるが、推論コスト(inference cost) は下がり続けている
  今は補助金のおかげで安いが、近いうちに補助金なしでも低価格になる可能性が高い
  ただし最新モデル(SOTA)を使うなら高くなるかもしれない。だがそれは価値の別問題だ
- 自分でモデルをローカル実行してみれば、「補助金のおかげ」という話が誤りだとわかる
  1万〜2万ドルあれば一日中トークンを生成できるマシンを作れるし、大規模事業者は規模の経済でもっと効率的に運用している
- ある種のモデルはいまだに基本的な事実誤認を起こす。たとえばiOS 26が存在するのに「それはiOS 16のことですよね？」と答える
  この点はいまだに信用しにくい
- だから私は今、補助金時代が終わる前にできるだけ多く作っておこうとしている。後でコストが上がるだろうからだ
- 今の安さは持続不可能な過渡的状態だと思う
  投資資金が止まれば結局価格は上がり、競争が消えた後でようやく本当のコスト構造が見えてくるだろう
あるユーザーは「AIが悪くなった」というテスト自体がおかしいと見ている
たとえば存在しないカラムを参照するコードに対して「コメントなしで完成済みのコードだけを出せ」と言えば、AIはどうしても誤ったコードを出すしかない
- こうした不可能なプロンプトにそのまま従うのは、むしろ退歩だと思う
  有能な開発者なら「これは誤った要求だ」と指摘すべきだ。このテストは迎合的応答(sycophantism) をあぶり出す有効な実験でもある
- 実際の開発ではこういう状況はよく起こる。AIであれ人間であれ、データ形式が期待と違うときには知らせるべきだ
  ただ黙って間違った結果を出すのは危険だ
- こういう場合、「有能でない開発者」のようにフィードバックを拒むAIに見える
- 実際、ほとんどのコーディングエージェントは「index_valueカラムがないのでdf.indexを使うべきだ」と言えるはずだ
  この種のエラーはGPT-2レベルの幻覚(hallucination) に近い
私はAI開発支援ツールが好きだが、それが常に絶対的な得なのかはわからない
以前、昼休みを短縮しようとしてHuelを飲んでいたが、結局休憩の価値を失ってしまったのと同じように
AIも細部を見落とすと、かえってやり直しにかかる時間が発生する
- いちばん難しいのは、AIに自分が正確に何を望んでいるか説明することだ
  だから私はプロジェクトのすべての文脈と制約を入れた15kトークンのMarkdownファイルを作り、毎回プロンプトに入れている
  いわば「世界モデル」文書だ
- 私もHuelとAIの両方を使ったことがあるが、本当に似た体験だった
- 生産性向上の理屈は結局期待値の再調整で相殺される
  得た時間のぶんだけより多くの仕事をするようになり、自己効力感や問題解決能力が弱まる
  こうした「非効率」が実は知識や洞察を得る過程だったことを忘れがちだ
  AIの生産性向上は、実際の運用コストと比べると過大評価されているのかもしれない
- あるコメントは、こうした議論がさりげない広告のように見えると感じていた
IEEEに技術論文を期待していたが、今回の記事は意見文(opinion piece) レベルで残念だった
- 実際、AI礼賛の記事もたいていは根拠のない体験談にすぎない。自分で使ってみるまではわからない
- これは IEEE Spectrum 誌の軽めのコンテンツだ
- 私もieee.orgドメインを見て厳密な研究記事を期待していた
- 例がOpenAIモデルにしか限定されていないのに、タイトルは全モデルを一般化している
  GPT-5が問題解決ばかりに集中して大局を見られないという点には同意するが、他のモデルは依然としてうまくやれている
- OpenAIはIlyaが去ってから新しい学習ラン(run) をうまく成功させられていないという話もある
  私は個人的にGemini-3-flashとカスタムのCopilot代替拡張を使っているが、ずっと有用で、よりパーソナライズされた開発体験を与えてくれる
最近Cursorが無限ループのように grep、cd、ls を繰り返すのを見た
あまりに多くの「vibe coder」を狙って機能を盛りすぎたようだ。むしろ軽量版のほうが扱いやすかった
「実行失敗」が必ずしも悪いサインとは限らない
ときにはそれがもっとも近い正解だったり、バグを見つける手がかりになることもある
ただし、実行のために検証ロジックを削除したり意味を変えたりすることは最悪の結果だ
LLMがインターネット上のあらゆる情報を食べ尽くした後どうなるのか気になる
Stack Overflowやオープンソースのコードが消えたら、結局自分自身を学習して崩壊(model collapse) するのではないか？
- Model collapse は実際に研究されている概念だ
  ただ、現実的な規模のデータではリスクは大きくないと見る研究者も多い
  最近のNVIDIA Nemotron 3 Nanoモデルの33%は合成データ(synthetic data) で学習されている
- AlphaZeroのようにAIが自らプロジェクトを生成し保守する方向に進化する可能性もある
  保守容易性のような価値関数を含めてシミュレーションを回せる
- しかしAIが作った幻覚データを再学習すると、品質はだんだん落ちていく可能性がある
  AIが自分で誤りを認識できなければ自己崩壊が起きるかもしれない
- 結局、共有の時代は終わり、閉じた小規模な協業へと変わっていく気がする
  「sharing is caring」のインターネットは消えるかもしれない
- おそらく今後はLLM登場以前のインターネットのスナップショットだけで学習し、追加データは人間がキュレーションすることになるだろう
AIは悪くなったのではなく、良くなったが使い方が変わっただけだ
きちんとしたスキャフォールディング(scaffolding) を用意すれば、はるかに良い結果を得られる
単純なテストで「AIは愚かだ」と結論づけるのは誤りだ
- 「それって結局『使い方が悪い』と言っているだけでは？」という反応もあった
- しかし、スキャフォールディングが必要なこと自体が問題だという意見もある
  たとえば「12月の売上」と聞くと、多くのモデルは年の条件なしにすべての12月を合計してしまう
  こうした論理的エラーが実務で問題を引き起こす
- きれいなコードと明確なコミュニケーションができる開発者ほどLLMをうまく扱う
  技術語彙力や表現力が性能に影響しているようだ
- こういう記事は一種の「Look Ma, I made the AI fail!」的なコンテンツに見える
- ただ、「スキャフォールディングを知っている必要がある」というのは、結局一般ユーザーには障壁になるという指摘もある
私もモデルの月ごとの品質変動を感じた
以前はうまくできていたエラー処理や変数名の規約を忘れたように見える
会話が長くなるほど品質が落ちることもある。プロンプト長の最適点があるようだ
- GitHub Copilotのドキュメント(リンク)によれば、
  新しい作業は新しいスレッドで開始し、不要な要求は削除するのがよいという
- 結局、会話全体がひとつのクエリなので、長くなるほどAIが文脈を正しく解釈する能力に依存することになる

AIコーディング支援ツールはますます悪くなっているのか？

AIコーディング支援ツールの性能低下現象

新しいモデルで目立つ「サイレントフェイル」

単純なテストで明らかになった違い

学習方式と品質低下のつながり

今後必要な方向性

関連記事

1件のコメント

Hacker Newsの意見