Claudeはrsyncのバグを増やしたのか？

(alexispurslane.github.io)

2 ポイント投稿者 GN⁺ 2026-06-06 | 2件のコメント | WhatsAppで共有

Claude支援リリースは rsync v3.4.2 と v3.4.3 の2件のみで、重大度加重バグ/10コミット基準では、過去のリリースより際立ってバグが多いという証拠はない
sev/10c はバグの重大度スコアを 0〜1 に正規化してリリースごとに合算し、コミット数で割ったうえで 10コミット当たりの値に換算する中核指標である
v3.4.2 は 50コミット・Claudeコミット 9件・バグ 0件・0.00 sev/10c、v3.4.3 は 34コミット・Claudeコミット 28件・バグ 17件・3.29 sev/10c で、どちらも IQR の両側に位置するが、いずれも 外れ値 ではない
正確置換検定 の p 値は 46%、Fisher の正確検定の p 値は 74%、オッズ比は 1.06 で、Claude リリースが無作為な 2つのリリースより悪い、または中央値超過になりやすいことを示す信号はほとんどない
v3.4.1 は Claude 導入前のリリースであるにもかかわらず、59バグ・9コミット・39.39 sev/10c で全データ中最悪値だった。rsync 論争の核心は、歴史的分布 を見ずに単一の回帰を Claude と結び付けた点にある

背景と問い

2026年5月末の rsync 論争は、v3.4.3 の回帰とそのリリースの Claude コミットを結び付けた Mastodon 投稿から始まり、Hacker News と GitHub Issue "Please Do Not Vibe Fuck Up This Software" に広がり、その Issue には 300件を超えるコメントが付いた
繰り返し示された中心命題は、Claude 支援開発が安定していたツールにバグを持ち込んだというもので、データ上の問いは Claude 支援リリースが過去のリリースより異常にバグが多いかどうかである
Lobsters ではリリースごとの回帰数を時系列チャートで見たいという要望が出ており、分析の焦点は「Claude 支援リリースは際立ってバグが多いのか」という単一の問いにある

データ範囲と再現性

データは RsyncProject/rsync の v2.4.6 から v3.4.3 まで、バグデータがある 36件のリリースであり、Claude コミットがあるリリースは v3.4.2 と v3.4.3 の2件だけである
指標・方法論・データソースの選定は人手で行われ、統計学修士号を持つ配偶者の助言も反映されている
データ収集、DuckDB への投入、ビュー作成、統計分析スクリプトは GLM 5.1 が作成したが、すべての数値・統計・カード・グラフは統計分析を実行した Python スクリプトが自動テンプレートで挿入した
再現用の alexispurslane/rsync-analysis リポジトリでは、パイプライン全体を最初から最後まで実行できる

指標とバグ帰属の方法

中核指標は重大度加重バグ/10コミットである sev/10c で、計算式は sev/10c = (Σ severity/100 ÷ total_commits) × 10 である
コミットはデフォルトブランチの committer date 順に並べ、各リリース範囲は前のタグから当該タグまでのコミットとし、pre・rc タグは境界から除外して最終リリースに吸収する方式である
バグの出典は GitHub Issue、rsync Bugzilla、rsync メーリングリストの3つで、GitHub Issue とメーリングリストのバグは報告時点の直前に配布されていた最新リリースに帰属させる
Bugzilla 項目は "Version" フィールドがバグ報告対象のリリースを明示しているため、そのリリースに帰属させる
リリース単位の分析を採用した理由は、批判自体が「Claude コミットを含むリリース全体でバグが増えた」という形を取っており、ほとんどのバグはどのコミットに由来するかが正確に明示されていないためである

重大度評価の方法

すべてのバグ報告は Qwen 3 35B が 0〜100 点の重大度で採点し、プロンプトでは実際のユーザー影響の観点から判断するシニア信頼性エンジニアの役割を与えた
90〜100点は静かなデータ破損・データ損失・リモートコード実行または不正アクセスのセキュリティ脆弱性、70〜89点はクラッシュ・ハング・バックアップ失敗・ビルド失敗、50〜69点は回避可能な機能回帰と区分した
Bugzilla とメーリングリストは本文がなくタイトル בלבדだったため、モデルはタイトルだけを見て評価し、情報が不足している場合は 40〜60 点の中間帯に寄せるよう指示した
出力は structured output の JSON schema で整数の重大度のみ許可し、temperature 0 に固定して同じ入力から同じ点数が出るようにした
機能要望、スパム、AI 関連の非技術的抗議、空の投稿のように 0 点になった Issue は基本のバグ数から除外した

Claude リリースの統計結果

v3.4.2 は 50コミット中 Claude コミット 9件、実バグ 0件、0.00 sev/10c、0パーセンタイルのリリースである
v3.4.3 は 34コミット中 Claude コミット 28件、バグ 17件、3.29 sev/10c、77パーセンタイルのリリースである
歴史的 IQR は 0.29〜2.59 sev/10c で、v3.4.2 は IQR のすぐ下、v3.4.3 は IQR のすぐ上にあり、2つのリリースが中間分布を反対側から挟む形になっている
正確置換検定では、可能な 2リリース組み合わせ 595通りのうち 272通りが Claude グループ平均 1.65 sev/10c 以上となり、p 値 46% という結果になった
Fisher の正確検定では、中央値 0.74 sev/10c を基準に Claude リリースが中央値超過になりやすいかを見たが、結果は p 値 74%、オッズ比 1.06 だった

コミット数と変更規模

Claude リリースは平均 42コミット、Claude を含まないリリースは平均 185コミットであり、任意の 2リリースがそれ以上のコミット数を持つ確率は 88% だった
GitHub compare API ベースの変更行数は、Claude リリース平均が 3,756行、Claude を含まないリリース平均が 696行であり、任意の 2リリースがそれ以上の変更行数を持つ確率は 5% だった
重大度加重バグ数は、Claude リリース平均が 5.6件、Claude を含まないリリース平均が 14.9件であり、任意の 2リリースがそれ以上の重大度加重バグ数を持つ確率は 77% だった
結論として、Claude リリースは変更行数こそはるかに多かったが、コミット数や重大度加重バグ数が多いわけではなかった

バージョン体系と事前の外れ値

v2.x リリースの平均は 1.11 sev/10c、v3.x リリースの平均は 4.23 sev/10c で、v3.x のほうが高いバグ率を示した
v3.x のみで比較しても Claude リリースは中位圏かそれより良い位置にあり、Claude を外れ値のように見せるには、より静かだった過去の時代と比較し、Claude 以前にすでに起きていた変化を Claude のせいにする形になる
Wald–Wolfowitz runs test は、Claude なしの 35リリースで観測 run 数 13、無作為期待値 18.5、z=-1.88、p=0.060 となり、0.05 基準では無作為性を棄却できるほど強くない
v3.4.1 は Claude 導入前のリリースであるにもかかわらず、59バグ・9コミット・39.39 sev/10c で全データ中もっとも高いバグ率を記録したリリースである
v3.4.1 は v3.4.0 の翌日に出た hotfix リリースで、他のすべてのリリースを一桁以上の差で上回る最高バグ率を示したが、当時は AI を責める対象がなかった

解釈と限界

データと整合する解釈は、「現時点の 2つの Claude リリースは過去のリリースと統計的に区別できない」というものである
v3.4.3 は 3.29 sev/10c で 77パーセンタイルと高めではあるが極端値ではなく、これより高いスコアを示した過去のリリースが 8件ある
「Claude が明らかに悪化させた」という命題は、リリース分布、置換検定、Fisher 検定のいずれからも裏付けられない
逆に、「Claude コミットは今後も一般的に悪化させない」という結論もこのデータからは導けず、現状では 2つのリリースが平凡な範囲に収まっていると言えるにとどまる
この指標には、コミットの複雑さやセキュリティ作業の強度を統制できない粗いツールだという限界がある

議論された交絡要因

Hacker News のあるユーザーは、CVE 対応のセキュリティ修正によって 2007年からコード中にあったコーディングミスが露呈したように見えると述べた
Lobsters のあるユーザーは、「LLM → 既知のセキュリティ問題の増加 → 平常時より多い変更が必要 → 平常時より多い回帰」という因果連鎖を提示した
Andrew Tridgell は、AI 生成の CVE レポートの洪水によって rsync の攻撃面に対する迅速かつ広範な変更が必要になったと説明した
こうした交絡要因まで含めると、問題は Claude 自体というより、より多くのセキュリティ作業とそれに伴う変更量の増加に近い

2件のコメント

GN⁺ 2026-06-06

Hacker Newsの意見

コミットを見ていて、元のコミットとリバートコミットを見つけた: https://github.com/RsyncProject/rsync/commit/d046525de39315d...
mallocであるべきコードパスまでcallocに置き換えられていて、すべての割り当てに対して callocが厳密な上位互換 であるかのように強制している。大きな割り当てや再帰的な割り当てではコストがかなり大きくなる。Claudeで書かれたコードでは、こういうものが注意の網をすり抜けるよい例に見える。リバートは https://github.com/RsyncProject/rsync/commit/7db73ad9a1b8721... にあり、リバートの説明も半分だけ読んでもLLMが書いた感じがする。元の投稿者の気持ちは理解できる
- コミット数自体も怪しい。ここ2か月でrsyncに入ったコミット数が、その前の 2年分 と同じくらいで、しかも大半がClaudeで書かれたコミットだ。こういう変更まで入っているのを見ると、AI利用に浮かれてだんだん不注意になっていく典型例のように見える
- 「Claudeで書かれた」は正確ではない。リバートコミットは https://github.com/RsyncProject/rsync/issues/959 を参照しており、そのIssueで作者自身が「メモリを0で埋める変更は自分のアイデアであり、自分の変更だ」と説明している
  セキュリティレポートで配列の末尾を越えた要素の使用が指摘され、割り当てを0初期化しておけば、今後同様のバグが発生しても有効なポインタではなくnullポインタのデリファレンスで済む可能性が高いと考えたということだ。Claudeはコミットのまとまりを整理するために使っただけで、少しでも修正すればco-authoredタグが付く仕組みなので、Claudeが変更を書いたという意味ではない。実際のコードは本人が書いたと明言している
- Claudeがその判断をしたと断定はしない。大きなコミットの間にこっそり紛れ込んだ付随的な変更でもなく、コミットメッセージからして「新しく割り当てられたメモリをすべて0初期化する」と始まり、実際にその通りのことをしている。そもそもどんなプロンプトだったと想像しているのかわからない
  人間が最初は改善だと思っていたが、RSSの回帰 を見て考え直した可能性は十分ある。そしてこの変更が必ずRSSを増やさなければならないという自然法則もない。callocは、OSから新たに受け取ったメモリマッピングがすでに0初期化されていることを知っていて、特別扱いすることもできる。ここでAIのせいにするなら、AIが脆弱性報告の急増を生み、それが急ぎの修正の急増につながり、急ぎの修正がときどき別の問題を生む、という意味合いに近い
- AIにLinuxのovercommitまで掛け合わされた時代とはすごいものだ。個人的には 10.8GB なんて今どき大したことでもないし、sprintfバッファはそれより大きいかもしれない。そうでないならそうあるべきだし、そうでなければsnprintfを使い始めるべきだ
コメントする前に、rsync作者がリンクした記事を読むことを勧める: https://medium.com/@tridge60/rsync-and-outrage-d9849599e5a0
念のため言っておくと、Tridgeとはここ数年連絡を取っていないが、長年の同僚でありメンターだった。十字軍に加わる前に、彼の視点を考慮する価値はある
- これが最上位コメントであるべきだ。彼がこんな文章まで書かなければならなかったのはかなり悲しい。彼の請求書を払っているわけでもない人たちが、あまりにも多くを裁いている
- 「新しいテストスイートの中核構造をmasterで先に公開で作るのがよいと思った」という部分は完全には理解できない。テストだけ更新したか、masterにだけpushしていたなら、人々はここまで怒らなかっただろう
  しかし彼は リリースブランチ にも壊れる変更をpushした。何年も動いていたワークフローを壊すのは、人を怒らせる最も確実な方法であり、そこにコミットで「Claude」まで見えれば火に油を注ぐようなものだ
- 彼の返答は本当によく書けた対応だと思う
この議論に直接の利害関係はないが、いくつか怪しく見える点がある。最も多くのバグが帰属されたリリースは、Claude共同作成コミットが最初に入ったリリースの直前である1月のリリースだが、帰属表示のないLLM作成コミットがこのリリースに入っていた可能性はないのか気になる
リリースへの帰属方法論もあまり良くない。マイナーバージョン更新で導入されたバグが、そのマイナーバージョン内で最も長く維持されたパッチリリースに帰属される傾向がある。3.4.1が実際に多くのバグを導入したとは考えにくく、3.4.0の翌日に出たせいで、そのリリースで生じたバグが3.4.1に計上された可能性が高い。また最近のリリースはバグが報告される時間が短いため、最近のリリースのほうがバグが少ないように評価されるバイアスもあり得る
- 同意する。記事の「rsync史上最悪のリリースはClaude導入以前で、誰も気づかなかった」という表現は、筆者にこの論争への利害がないという感じより、派手な統計用語で意見を包んでいるという感じを与える
  「まばゆいほど明確」？グラフを1つ描けば済む話だ。そしてv3.4.1は2025-01-16なので、技術的にはAI支援コーディング時代の中にあり、帰属表示が標準的慣行になる前だった
- リリースがかなりまれである点を踏まえて、同じ点を見始めた。帰属表示のないLLM作成コミットの問題を避けるには、分析にはv3.3.0の前後でのバグ深刻度比較を含めるべきだと思う。日付は2024年4月6日だ
- LLMはいろいろな使い方ができる。人が非常に直接介入してローカルな変更だけさせるやり方から、完全に任せるやり方まで幅広い
  LLMが生成したがコミットメッセージに共同作成者が付いていないコードをたくさん見てきた。たいていコードベースとのインターフェースがClaude/Codexのようなツールを通じて完全に行われる場合にのみそのタグが付くようで、そうしたコミットはたいてい最も冗長なくせに、なぜ変更したのかはほとんど語らずコード変更の要約しかしない。逆にClaudeを道具として使う開発者も見た。VSCodeとClaudeターミナルを行き来しながら正しいコードを自分で確認し、配管作業だけClaudeに任せるようなやり方だ。おそらく筆者も小さく始めて、時間とともに大きくなっていったのだろう
- 1点目と2点目は互いに矛盾しているように見える。3.4.1のすべてのバグが3.4.0に帰属されるべきだというなら、帰属されていないLLMコミットがプロジェクトに入っていたはずの時点はさらに前倒しになり、そのぶん仮説はますます荒唐無稽になる
  より大きな問題は、以前のリリースにLLMコミットがこっそり入り、そのせいでバグ率が高かったという仮説を裏づける証拠がまったくないことだ。バグ数が多ければ自動的にAI介入を意味すると前提しない限り根拠はなく、それは循環論法だ。3点目は妥当だ。通常バグ発見にどれくらい時間がかかるかと、各バージョンがリリースサイクルのどの位置にあるかは分析してあり、望むなら投稿できる
- 最も露骨で驚くべき誤りから言えば、Claudeの統計は全体でデータ2件から出ている
ここには重要なメタレベルの皮肉がある。元記事はAI利用を擁護しているが、データの分析と結果の提示にも明らかにAIを使ったように見える
その過程で筆者は、自分がよく理解していないやり方で統計を使い、いくつもの誤った結論に達している。関連する議論は https://news.ycombinator.com/item?id=48417626 で見られる。要するにこの研究には十分な統計的検出力がなく、正当化されない「差はない」という主張をしている。結局LLMでデータを解釈した結果、この研究が調べようとしていたのと同種の誤り、つまり偽りを自信満々に断言するというミスを犯したわけだ
- AIはあまりにも宗教っぽい。信じている人に何を言っても、その信仰を疑わせることはできない。もっと一般的に言えば、誰かが信じたいことを理性で説得して諦めさせることはできない
この件で怒っている人たちがrsyncメンテナに圧力をかけて得られるのは、ほかの人たちがAI利用を責任をもって開示しなくなることだけだと思う。論争を避けるために、コミットからClaude帰属表示を切るようになるだろう
- AI利用の開示はあまり気にしていない。直接知っている相手でない限り、人間が書いたコードがAIが書いたコードより必ず良いとは思わないからだ
  いずれにせよ、コミットしてプッシュするコードの責任は人間が負うべきだ。これは今までも変わっていない。手で書こうが、猫がキーボードの上を歩いてできようが、AIが作ろうが私の関心事ではない。プロジェクトのコード品質はさまざまな理由で落ち得るし、AIが作ったかどうかだけに執着するのは生産的ではない。AIを批判する口実を探す人も、AIを擁護したい人もそうすればいいが、プロジェクトのコード品質を評価する方法としては適切ではない
- 論争とは無関係に、そうした表示は切るのが正しい。兆単位企業に無料広告をしてやる理由はない。Generated-by のようなトレーラーはサードパーティープロジェクトに貢献するときだけ意味があり、その場合は開示するのが礼儀だ
- 「非倫理的または不道徳なことをしたと怒るな。さもないと、もっと非倫理的または不道徳なことをするぞ！」という話に聞こえる
  LLM生成コードの帰属表示を切るのは詐欺だ。自分でコードを書いたと言っているのと同じだからだ。もちろん、そもそもLLMでコードを生成すること自体とも相性が良い。実際にはライセンスや著作権表示を削除したまま入力を吐き戻しているだけなのだから
- それが悪いことなのかは疑問だ。Anthropicのマーケティング部門の観点ではそうだろうが、エージェントが開発者ツールボックスのもう1つの道具にすぎないなら、帰属表示は少し奇妙に感じる。結局コミットの責任は開発者にある
- この論理は毎回出てくるが説得力がない。問題を公に指摘すれば隠す誘因が生まれるのは確かだが、だからどうしろというのか分からない
  AIが悪いという議論はひとまず脇に置いて例えるなら、脱税は悪く非倫理的で、見つけたら指摘すべきだ。しかしそれが隠す誘因を作るからといって、指摘せず黙っているべきだという結論にはならない
Andrewがrsyncを作り維持してきたことには感謝しているが、家庭内ネットワークでマシン間のファイルバックアップにrsyncをかなり依存しているので、Homebrewのrsyncバージョンを3.4.1に固定する方法を時間をかけて調べた
その後の2つのバージョンのバグは本当に恐ろしく、この一連の騒動の発端になった元のレポートも同様だ。思っていたよりずっと複雑だった手順はここにまとめた: https://gist.github.com/e40/caa67c1b8d439a528695f996d0519d8e
この記事は答えよりも疑問を多く残しており、判断を下しにくい。なぜClaudeのコミット直前のv3.4.1が最もバグが多かったのか、そしてなぜ「誰も気づかなかったのか」が分からない。ただのヒューマンエラーとして片付けるにはあまりにも奇妙だ。
また、なぜv3.4.2はバグが0個、あるいはバグスコアが0なのかも疑問だ。他のコミットには見られないこうした外れ値が集計統計に混ざり、「Claudeがバグを作る？」スコアを下げる方向に入れられているのも不自然だ。正直、これが筆者の分析における危険信号ではなかったという点が理解できない。高度な統計を回しているという理由で、中途半端な分析が非常に複雑な完成品のように提示されている印象だ
- v3.4.1がヒューマンエラーではないと見る理由が、「そうなりえない」という先行仮定以外に何なのか分からない。
  v3.4.2も元の指標では、機能要望と質問を除外する前はバグ4件で、その前はさらに高かったが、全体の分析には大きな差を生まなかった。四分位範囲内、それも低い側に十分収まっていた。Claudeリリースがたった2つしかない状況で、1つの外れ値をただ面白く見えるという理由で除外するほうが、より悪く、より恣意的だと思う
「コミットの複雑さ、セキュリティ重視度、バグの深刻度は統制していない。1行のタイプミス修正とCVEパッチを区別しない鈍器だ。だが、批判者の『Claudeは状況を悪化させる』という非難も鈍器なので、鈍器には鈍器で応じるのが最も公正だ」という話なら、同意しがたい。
ユーザー視点では、バグの性質がより悪くなったのかを理解する必要がある。比率が同じでも体感するソフトウェア品質が落ちたなら、特にプロジェクト保守者なら、それを悪化したと見るだろう。この分析を完全に無視しようというわけではないが、こうした問いは定量分析だけでは十分に答えにくいと思う
- それでも公正だと思う。これまで誰かがコードを分析して、どの深刻度のリグレッションが何件出たと述べたのを見たことがない。ただ「LLMのせいでバグが増えた」と言うだけだ。
  この分析は、その気になれば自分で検証できるし、「LLMがあってもバグ数はかなり平均的だ」と述べている。その主張には直接応答しているわけだ。もっと微妙な分析が欲しいなら、自分でやって結果を共有すればよい
- 証拠なく主張されたものは、証拠なく退けられてよい。この分析は、元の主張に使われたものより多くの証拠と高い厳密さを備えている。私にはそれで十分だ。誰かが元の主張をより良い証拠で実際に裏づけるなら、それはぜひ見たい。それまではこの問題を心配しない
- 立証責任は主張する側にあるのではないか?
20年以上コーディングしてきたし、コーディングを愛してきたし、これからもそうである可能性が高い。数か月前まではAI懐疑派だったが、ClaudeとCodexは想像もしなかった形で私の開発のやり方と速度を変えてしまった。
その結果、より多くのコードを書き、より多くのバグも見つけている。だからHNのコメントでAI製のものに対する極端な嫌悪を見ると、かなり驚く。AIが手伝った、あるいは全部生成したからといって、プロジェクトが突然vibe codingになるわけでもないし、その言葉がLLMユーザーに投げつける侮辱である必要もない。90年代半ば以降、海外アウトソーシング開発が増える中で「インド人開発者」に浴びせられた軽蔑的な表現を多く思い出す。2020年代半ばの今、似たような言葉がAIに向けられている。理解できない。確かなのは、反対者と無関係に、ますます多くのコードがAIで生成されるようになるということだ
- 私も3年前は同じようにAI懐疑派だった。GPT-4が最先端だった頃は、コンテキスト長の限界のせいですぐ頭打ちになると思っていた。32Kコンテキストを使うのにばかげた金額を払わなければならなかった時代を覚えている。
  去年、初めてAIエージェントが些細ではないバグを満足のいく形でデバッグして修正するのを見た。その時点でも、大きな仕事に使うには、イシュートラッカーを丸ごと渡せるようなレベルではないことは明らかだった。今はここ数か月、Codexで些細ではないプロジェクトを進めている。ライブラリの都合でC++で試作品を作り、初期版はHaskellで書き、最近はモバイルのメモリ使用量を抑えるためRustに移植した。問題のないツールではないが、この1年だけでも進歩の速さには驚かされる。懐疑は良いことだが、健全な懐疑であるなら、具体的な証拠の前では引き下がるべきだ
- ツールが関わるどんな話題でも、ツールそのものが好きな人と、ツールを使って別の何かをするのが好きな人がいる。プログラミングにおいて私は後者だった。プログラミングは、私が本当に好きな問題解決、システムレベルの思考、ソフトウェアを通じた優れた解決策の提供を可能にする道具だ。
  だからAIが退屈な部分を手伝ってくれるのは本当に楽しいし、非プログラマーの同僚たちが自分たちのvibe codedなアイデアが現実になるのを見て興奮している様子もとても面白い。ソフトウェア業界で働く反AIの立場の視点が心から気になる。仕事の差し迫った終焉や技術転換が理由なのだろうか?
- 90年代半ばに海外アウトソーシングが増えた時、「インド人開発者」に向けた軽蔑的な表現が出てきたのだとしたら、そのきっかけは何だったのか?
- 外注コードはいつも扱っているが、例外なくタイヤ火災のような状態だ。ついさっきも、ある開発者がローカル作業環境の設定方法を知らず、認証チェックを回避するフラグをデフォルトでオンにしたままコミットしたコードベースを1週間かけて掃除したばかりだ。
  AIのvibe codingでも同じような「近道」の問題が報告されているし、私自身、最前線モデルを思考レベル11まで上げて使っても、AIが生成したほとんどすべてのコードを書き直さなければならなかった。それでもAIは、PRレビュー、セキュリティ脆弱性の分析、タイプミス探し、リバースエンジニアリングのような他の活動には非常に有用だ。おそらくサブスクリプションを次の段階に上げるべきなのだろうが、同時にAI生成コードはいまだに使えない。1人の中に「非常に有用だからもっと金を払うべきだ」と「出力コードの品質は使い物にならない」が同時に成り立つなら、ユーザー全体にさまざまな意見が出るのは当然だ
- LLMはコンテキスト検索とテンプレート出力には向いている。だが保証されるのは、最も低い共通の目立つ答えであり、著作権保護がない成果物であり、著作権漏洩による潜在的な法的リスクもある。
  今は同型的剽窃のNapster黄金時代だ
いったいこれは何なんだという感じだ。実際に重要なのは、AIが書いたコードがコードベースに許容された後で、バグが増えたのかだけだ。答えは誰もが分かっている。それでも、「データ」が必要な結論を作るために使えるのを見るのはいつでも興味深い

GN⁺ 2026-06-06

Lobste.rsの意見

今後バイブコーディングで進められるFOSSプロジェクトを引き続き使うかどうかは、各自で判断できると思う。ただ、管理者がバイブコーディングツールへ切り替えた後にコミュニティが見せた怒りはかなり驚きだったし、記事に出てくる実証データは少なくとも、その慣行の変化による影響をよりよく文脈化してくれている
管理者がこのコーディング方式を採用したことで信頼が保たれるのか、さらに崩れるのかは、時間が経たないと分からない
- この移行に腹を立てた人たちのうち、実際にrsyncに意味のある貢献をしたり、お金を払ったりした人がどれくらいいるのか気になる
この分析は私が望んでいたまさにその内容で、それ以上だった。特に「すべての指標、方法論、データソースは、Penn State Universityで統計学の修士号を持つ妻と相談して私が直接選んだ」という部分がよかったし、実際の統計専門家を関与させた点と、読みやすい文章にした点がすばらしい
「コミット10件あたりのバグ数」という単一指標を使ったとのことだが、SI接頭語を使ってコミットあたりデシバグ(decibugs)と呼ぶ機会を逃したようだ
- 同意する。私の文章ではないが、誰かが過熱した賛否を越えてコード品質に与えた影響をデータで示した点がよかった
オープンソースプロジェクトの成功は認識に大きく左右されすぎるので、人々はGitHubスターを金で買ったりもする。残念ながら今回の認識の問題は制御を外れて一つの論点になってしまっており、どんなデータでもそれを変えるのは難しい
今後「rsyncの管理者がLLMを使ったら壊れた」という話は、「データセンターは1日に50万ガロンのきれいな水を浪費する」「METRの研究はLLMが生産性を下げると言った」といった論点と並んで、AI懐疑論者が持ち出すものになるだろう
私がAI懐疑論者かどうかを言いたいのではなく、このテーマの論争はたいていこういう流れになると言いたいだけだ
- それがなぜ「論点」なんだ、ただの事実じゃないのか？
- 筆者がデータで誰かを説得しようとしているのかは分からない。この記事は、rsyncのツール採用をめぐる辛辣な論争にデータの文脈を付け加えたものだと見ている
  ただ、記事から他の非定量的要素が完全に抜け落ちているという指摘はその通りで、伝道者と懐疑論者の双方のノイズがすでに十分あるので、あえてそうしたのだと思う
rsync史上最悪のリリースはClaude導入前で、コミット10件あたりのバグが39.39件だった、という点は非常に重要で予想どおりの結論だ
ユーザーと開発者の間にあるテストや品質保証のようなプロセスがソフトウェアの正確性を保証できなければ、LLMの有無にかかわらずバグは出荷される。LLMはこの過程に害を与えることもあれば、役立つこともある
- 同意する。cURLの最近の記事は、その反対側の事例を示しているように見える
  すでに何年もかけて定着した強いソフトウェア工学の慣行のおかげで、似たようなAIツールでバグを見つける価値は全体として低くなっている
- rsyncの将来についてはいくつか懸念がある。最大の問題は、rsyncが事実上ここ数年完成済みのプロジェクトだったのに、AIを使いながら既存のテストコードを取り外してPythonのテストスイートに置き換え、かなりの期間にわたって既存テストを並行運用して正確性を検証しなかったことだ
  私の基準では無責任だ。とりわけrsyncの主な目的は大切なデータを移動することであり、そのデータの完全性は絶対的に重要だ
「AI反対派のユーザーによくあるように、結局は暴力のファンタジーへとエスカレートした」といったレトリックは避けてほしい。筆者が同意しない一部の人々を一般化しているだけでなく、もともと同意しない読者の反感も買い、結果として本来いちばん読むべき人たちが記事を読まなくなる
それとは別に、以前のバージョンよりバグが多いか少ないかは、私はあまり気にしない。私にとって重要なのは、自分が考えるソフトウェア開発のやり方と合わない方法で開発されているという点だ。効率性以外にも問題があるという基本的な理解がなければ、この立場が合理的だと説得できる見込みはない
幸い、望まなければこのバージョンのrsyncを使わずに済むし、LLM使用以前から分岐した代替を選ぶつもりだ
- この記事は怒りが強く出すぎていて、長く読めず途中でやめてしまった。公正であろうとしていた、あるいは少なくともそう見えたなら、もっとよかったと思う
  しかも、最初のバグレポートは人が殺到したイシューだったという、ずっと前に反駁されたミームを繰り返していたのもよくなかった。実際の最初のバグレポートは別にあった
正直、今の文章のほうが良いと思う。ただし「この指標はコミットの複雑さ、セキュリティ上の機微、バグの重大度を統制できていない。1行のタイプミス修正とCVEパッチを区別できない鈍い道具だ」という部分は、LLMは良くない側にいる自分の立場からすると、核心的な批判を外している。
私や他の人たちが提起している批判は、AIがより大きく、理解しにくく、複雑さを増すコミットを大量に生み出させるということだ。LLM支持者も似たようなことを言いながら、何十年も検証されてきた「PRを読む」という慣行から、「LLMがすべてをテストできるようにすべきだ」へとゴールポストを動かしがちだ。しかし、コードの複雑さが技術的負債だという問題は消えない。
今回のケースではバグの重大度は非常に高い。バックアップのワークフローが実際に壊れたからだ。rsyncはバックアップに広く使われており、人々はパッチ更新でバックアップスクリプトが壊れる可能性など想像すらしないほど、「実戦で鍛えられた」ツールとして信頼してきた。
LLMがバグのあるソフトウェアを作ったのは偶然だったとか、メンテナがLLMの作業フローを変えてテストカバレッジを上げるべきだと言うことはできる。実際、メンテナもそう言っていた。しかし怒りの核心は、このツールがその信頼を壊したことにある。
実際、最近では「コードをまったく読まない」と言う新しい類のLLMプログラマーたちがいる。読むのに時間がかかりすぎるし、普通のプログラマーのコードより把握するのが複雑だという理由だ。コードを読むというのは他人のメンタルモデルを学ぶことだが、LLMツールは一貫した1つのメンタルモデルを提供できない。
別件だが、サイトのアクセシビリティも確認すべきだ。視力はかなり良くて20代後半なのに、クリーム色／黄色の背景の上にある明るい灰色の文字は本当に読むのがつらい。
- 引用部分が紛らわしい。記事で使われている指標は、コミット10件あたりのバグ数に重大度の重み付けをしたもののように見えるが、筆者は自分で自分に矛盾しているのか？それとも自分の読み違いか？
- ワークフローが壊れたと言っている人たちにとっては、オープンソースソフトウェアとGPLライセンスが何であり、どんな保証を与えるのかを学ぶ良い機会だと思う。
  実際にそのバグを自分で見つけた人は多くないだろう。rsyncユーザーの90%以上は、そのバグのない以前のバージョンを使っているのではないかと推測する。私もその1人だ。
```
$ uname -a  
Darwin riemann.local 25.3.0 Darwin Kernel Version 25.3.0: Wed Jan 28 20:53:31 PST 2026; root:xnu-12377.91.3~2/RELEASE_ARM64_T8103 arm64

$ port info rsync  
rsync @3.4.1 (net)  
[...]  
```
  注目を集めた理由について言えば、今かなりの部分のコミュニティが混乱していることは、Steven Pinkerでなくても理解できる。LLMが人間よりプログラミングが上手いという事実は、受け入れやすいものではない。
  自分のアイデンティティや自尊心をプログラミング能力や職業に置いていた人たちは、将来の生計／市場価値の不確実性と、アイデンティティの危機という二重の危機に直面している。
  恐怖、不確実性、疑念は扱いにくく、LLM企業は株価を上げるためにその効果を増幅することに全力を尽くしている。10月以降に市場が急激に調整すれば、こうした増幅装置も弱まるかもしれないと思う。
  世界中のプログラマーのうちごく小さな割合、つまりコードを芸術形式として見る人たちは、おそらくLLMを訓練やスキル向上に使うだろう。
この記事はリグレッションに言及したコメントを多く引用しているが、分析自体はリグレッションではなく、バグレポートだけを測定している。バグが導入されたリリースではなく、報告されたリリースにバグを結びつけていて、リリースの重大度はコミット数で測りつつ、リリース期間やディストリビューションでの採用状況のような明確な要因は除外している。
これでどうして筋が通るのか分からない。
個人的には、LLMを使うプロジェクトは避けている。実質的な理由があるというより、ただひどく気持ち悪いからで、誰かが「kek」や「fren」みたいな言葉を使うと、特に理由がなくてもそれ以上関わりたくないというサインとして受け取るのに近い。
今LLM利用を嫌う理由として挙げられている説明は、後付けの合理化のように感じる。倫理や品質といった現在の懸念はもっともだが、そうした問題が解決したからといって、私のようなAI反対寄りの人たちが急に平気になるとは思えない。
だから「AGENTS.md」やClaude共同執筆コミットなどがあるプロジェクトは、具体的な理由がなくても避ける。ただ不快で、好みに合わず、バグがあるかどうかは関係ない。他の人たちも似たように感じていることはあると思う。
筆者に言うなら、第一にファンタジーは言葉だ。実際には言葉で止まったと主張しているのであって、少なくとも非言語的な拡大があったと主張しているわけではない。
第二に、こういう主張をするなら、近くの統計専門家にどう裏付ければよいか聞くべきだ。何人かがそういう投稿をしたというだけでは、それが「典型的」だという主張を有意に裏付けることにはならない。
統計で裏付けていない私の逸話的観察では、「AI反対」のユーザーは、LLMが役に立たない場面に割り込んでくることを、たいてい暴力的に感じるというより悲しく感じる側に近い。
- ときどき、非常に冗長で詳細な文章で、LLM反対派の一部、たいていはLLMに感情的・社会的に反応している一部を反駁するものを見る。そういう文章は、なぜかはっきり説明しにくいが、とても不誠実に感じられ、弱い者いじめのように思える。
  詳細すぎて感情的な観点から反論しにくく、結局は「LLMが問題なのではなく、正しく使えば増幅装置になる。AI反対派は分かっていないだけで、取り残されるのが怖いだけだ」で終わるように見える。
  rsyncメンテナたちの作業を論争として矮小化したくもないので、自分がどうやって説得力のある反論を組み立てればいいのか分からない。
  ここでの統計は、オープンソース保守の観点からは興味深いかもしれないが、結論が妙に一方へ傾いていて、GitHub流のオープンソースは自分が貢献したい形ではない、という感覚が残る。
  それでも、rsyncのリポジトリに対してメンテナへ集団で押しかけたのはまったく良くないと思う。
- 公然たる暴力的ファンタジーをよくないものだと呼ぶのは正しい。そういうものは文明として目指すべきことではない。ただ、筆者がそれを「典型的」と呼んだ部分は一般化なので引っかかる。
  逸話的観察については、この漫画はその通りだと思う。私は具体的で測定可能な主張を見るのが好きで、それは数字が好きだからでもあるし、オンラインでの議論が最後のコマの理想世界に少しでも近づくようにしたいからでもある。
分析には感謝するが、方法論にはあまり確信が持てない。コミットごとに中核コード、つまりテストやドキュメントではないコードの変更行数を掛けた差分単位のバグ数のような指標や、リリース後に特定のバグ数へ到達するまでにかかる時間の分析が気になる。
ただし、今回のリリースは他のリリースよりはるかに多くの注目を集めたため、バグがより多く報告された可能性が高く、非常に説得力のある指標を作るのは難しそうに見える。『リリース後何週間という基準で典型的か？』のような問いも、あまり有用ではないかもしれない

Claudeはrsyncのバグを増やしたのか？

背景と問い

データ範囲と再現性

指標とバグ帰属の方法

重大度評価の方法

Claude リリースの統計結果

コミット数と変更規模

バージョン体系と事前の外れ値

解釈と限界

議論された交絡要因

関連記事

2件のコメント

Hacker Newsの意見

Lobste.rsの意見