1 ポイント 投稿者 GN⁺ 2026-03-06 | 1件のコメント | WhatsAppで共有
  • chardet の原著者である Mark Pilgrim が、プロジェクトにおける LGPLライセンス違反 を指摘し、最近のバージョン 7.0.0 で行われた MITライセンスへの変更 の撤回を求めた
  • 彼は、メンテナーが「全面的な書き直し」だと主張していても、元のコードに 直接さらされた状態で作成された派生物 である以上、LGPLを維持すべきだ と明言した
  • 複数の開発者が、AI支援による書き直し が実際に「クリーンルーム実装(clean room implementation)」に当たるのか、そして LLMが元のコードを学習していたかどうか を議論した
  • 一部では API互換性フェアユース(fair use) の可能性にも言及があったが、多くは 著作権侵害の可能性AIコード生成の法的な不確実性 を懸念した
  • 今回の議論は、AIが生成したコードの著作権責任オープンソースプロジェクトのライセンス変更手続きメンテナー権限の限界 をめぐる重要な先例として注目されている

Mark Pilgrimによる問題提起

  • Mark Pilgrim は、自身が chardet原著者 であり、プロジェクトは LGPLライセンス で配布されてきたと明記した
    • 彼は、バージョン 7.0.0で「再ライセンスする権限がある」とするメンテナーの主張 は誤りだと指摘した
    • LGPLの下にあるコードは、修正されても 同一ライセンス で公開されるべきであり、「全面的な書き直し」という主張には 法的根拠がない と強調した
    • 「コード生成器の追加」が新たな権利を与えるものではないと明言した
  • Pilgrim は、プロジェクトを 元のLGPLライセンスに戻すこと を要求した

コミュニティの初期反応

  • あるユーザーは、AI支援の書き直し以前のバージョンのフォーク があるか質問し、別のユーザーが 6.0.0バージョンへのリンク を提示した
  • 一部は「法的には Mark が正しい」と同意し、LGPL違反の可能性 を認めた
  • 別のユーザーは「AIによる書き直しは避けられないトレードオフだ」として、実務的な観点 に言及した

法的議論: API、著作権、フェアユース

  • あるユーザーは Google LLC v. Oracle America, Inc. の判例を引用し、APIも著作権保護の対象 であると述べた
    • API互換性を理由にした書き直しは、フェアユースの要件を満たさなければ違法 となり得ると説明した
  • これに対し別のユーザーは、Googleの件ではフェアユースが認められた と反論した
  • 議論は API互換性のある書き直しの適法性AI生成コードの著作権上の位置づけ へと広がった

AIコード生成とクリーンルーム実装をめぐる論争

  • 一部では、「AIが元のコードを学習していた可能性」があるなら クリーンルーム実装は成立しない と指摘された
    • LLMが chardet のコードを学習していたかどうかが、法的判断の核心 になり得る
  • 別のユーザーは、「AIが入力と出力だけを基準にコードを生成したのであれば可能かもしれない」と主張した
    • しかしこれに対しては、「そうであればライセンス自体が無意味になる」という反論が出た
  • AIコードにおける 著作権責任の不明確さライセンス順守の検証の難しさ が主要な争点として浮上した

ライセンス互換性とGPLをめぐる議論

  • 一部は MITライセンスが GPLと互換性がない と主張したが、別のユーザーが FSFの公式文書 を引用し、MIT(Expat)はGPL互換 であると説明した
  • しかし、LGPLコードをMITへ再ライセンスすることは依然として違反 であるという点では多くの意見が一致した
  • また別のユーザーは、「LGPLコードによって築かれた名声やリポジトリを維持したまま契約だけ捨てることはできない」と指摘した

AI学習データと信頼の問題

  • 複数のユーザーが、「Claude が LGPLコードを学習していないと信じられるのか」と疑問を呈した
    • AIモデルの 学習データを追跡できないこと が法的リスクとして挙げられた
  • 一部は、「AIコードに盗用の可能性が含まれるなら、使用自体を避けるべきだ」と主張した
    • 研究の引用を通じて、AIコードの2〜5%が既存コードの複製である可能性 を示す統計も提示された

プロジェクトのアイデンティティとメンテナー権限

  • 一部は、「過去のコントリビューターのコードがすべて削除されているなら、新バージョンは独立している可能性がある」と主張した
    • しかし、「名前と評判をそのまま使うのは不適切だ」という反論もあった
  • 「著作権は表現を保護するのであって、名前を保護するものではない」という意見も示された
  • メンテナーが 既存コードをすべて削除していたなら 法的違反ではないかもしれないという見解もあったが、明確な証拠は示されなかった

コミュニティの総合的な見方

  • 複数のユーザーが Mark Pilgrim と Dan Blanchard の双方の貢献を尊重しつつ、AI・著作権・オープンソースガバナンス の複雑な問題を認識すべきだと述べた
  • 議論は、AIコード生成の法的責任プロジェクトのライセンス変更の正当性オープンソースメンテナー権限の限界 などへと広がった
  • 一部では、「v7.0.0をフォークしてLGPLに戻そう」という提案も示された

主要な争点の要約

  • LGPL → MIT 変更の適法性: 原著作者の同意なしには不可能だという意見が多数
  • AIによる書き直しの著作権上の位置づけ: 学習データへの露出の有無によって派生物と見なされる可能性
  • クリーンルーム実装かどうか: AIが元のコードを参照していないことを立証する必要がある
  • プロジェクト名・評判の利用問題: 同じ名前での再配布には法的・倫理的な論争がある
  • AIコードの信頼性: 盗用リスクとサプライチェーン安定性への懸念

この問題は、AIが生成したコードの著作権とオープンソースライセンス順守 をめぐる代表的な事例であり、今後 AI開発ツールの法的責任の枠組み に影響を与える可能性がある

1件のコメント

 
GN⁺ 2026-03-06
Hacker Newsの意見
  • Pilgrim は クリーンルーム の概念を誤解していると思う
    「完全な書き直し」という主張は重要ではない。法的には独立した実装は可能だ。
    クリーンルームは単に訴訟を簡略化するための手続き的装置にすぎず、原本コードに触れていてはならないという法的要件ではない。
    実際、Linux も Unix の内部構造を知っていたが、独立に実装された

    • 法解釈とは別に、AI が GPL コードを自動で書き換えてライセンスを回避できるなら、オープンソースコミュニティの武器 を失うことになるので懸念される
    • 構造的類似性テストで二次的著作物かどうかを判断できるという主張も誤りだ。Claude を使ったという理由だけで二次的著作物だと断定するのも間違いだ。実際の法的基準は依然として 不明確な領域 にある
    • 3つのケースに分けて考えるべきだ。
      1. コードが似ていれば、クリーンルーム再実装を証明しなければならない
      2. 完全に異なれば、クリーンルームかどうかは無関係だ
      3. たいていは類似部分と非類似部分が混在するため、各部分ごとの分析が必要だ。一部でもコピーされた箇所があれば、その部分は書き直さなければならない
    • chardet の機能(Unicode エンコーディング検出)は本質的に固定されている。したがって、新しい実装が同じテストを通過するのは当然だ。
      JPlag の低い類似度は、盗用ではないことを示す説得力のある証拠 に見える
    • AI が生成した書き直しコードが 著作権保護の対象 になると考えること自体が驚きだ
  • 「コードベースを知っているなら書き直しも著作権侵害だ」という主張は完全には妥当ではない
    内部知識は 特許の領域 であって、著作権とは無関係だ。
    ただし、原本コードをそのまま横に置いて文面だけ変えるようなやり方は侵害だ。
    AI が原本コードを見て似たコードを生成したなら、それは事実上 並行複製 と見なされる可能性が高い。
    しかし、原本を見ずに完全に新しく書くなら可能だ。ただし法的防御が難しいため、企業の立場ではリスク要因と見なすべきだ

    • 特許と著作権の違いを明確にする必要がある。
      特許は独立発明であっても侵害になりうるが、著作権は 創作の独立性 が核心だ。
      ただし、すでに見たことのある作品と同一の成果物を作ったなら、陪審員を説得するのは難しい
      結局、類似性があれば 証拠の優越(preponderance of evidence) 基準で侵害と判断される可能性が高い
    • マリオ・プーゾの『The Godfather』を読んで構造が同じ小説を書けば、二次的著作物と見なされるだろう。
      一方で原作をまったく知らなければ、独立創作として認められる
    • Claude.md ファイルがあるなら、新しいメンテナーが Claude をコード生成器として使った可能性が高く、そのモデルは chardet の原本コードで学習されているはずだ
    • 「どれだけ違えば新しいコードとして認められるのか?」という疑問が出ている
    • 書き直しは 翻訳に近い。翻訳も著作権侵害だ。
      アイデア自体は保護されないが、表現は保護される。
      LLM が学習過程で原本コードを見ていたなら、法的にはグレーゾーンだ
  • 核心は LGPL 違反かどうかだ。
    新しいコードが原本に基づいているなら、二次的著作物と見なされ、LGPL を維持しなければならない。
    「完全な書き直し」だと主張しても、原本コードに触れていたなら ライセンス違反 になりうる

    • 触れていたからといって自動的に二次的著作物になるわけではない。
      クリーンルームは単なる訴訟防御のための手続きであり、立証責任は原告側 にある。
      Linux や GNU ツールも Unix を知っていたが合法だった
    • もし Claude が原本コードを学習していたなら、その解釈では AI は LGPL の二次的著作物しか生成できない という興味深い結論になる
    • 核心は著作権だ。新しいコードが原本の二次的著作物なら LGPL に従う必要があり、そうでなければ新しい著作権者が自由にライセンスを決められる
    • 同じ名前のままバージョンだけ上げるなら、事実上同じプロジェクトと見なされる可能性がある
  • コンサルティング中に興味深い事例を見た。
    ある SaaS 企業のエンジニアが Claude Code で自社アプリをリバースエンジニアリングし、API 互換バックエンド を1週間で作った。
    「競合がこうしたらどう守るのか?」と聞かれた

    • それは単に 技術の進歩 だ。
      コード自体がビジネスの中核なら、すでに危うい。
      競争を心配するより、より良い製品を作ることが重要だ
    • StrongDM Factory の事例のように、外部サービスを複製してテスト用に使うことが現実になっている。
      今や「Slack や Drive を再実装しよう」が 非現実的ではない時代
    • もし AI が単なるフロントエンドだけを見てバックエンドを再実装したなら、それは 合法的 だ。
      API は公開されたインターフェースなので保護対象ではない
    • 特許は事後登録ができず、著作権はアイデアを保護しない。
      IBM BIOS や DOS の リバースエンジニアリング事例 のように、独立実装は合法だ
  • メンテナーは 受託者(trustee) であって所有者ではない。
    原作者のライセンスを勝手に変えてはならない。
    完全に新しく作ったコードなら、新しい名前でプロジェクトを始めるべきだ。
    「既存バージョンを固定しろ」というような発言は コミュニティ精神に反する

  • 2021年のコメントですでに「chardet は LGPL ベースなので再ライセンス不可」と言及されていた。
    それを知りながら書き直したなら 無謀な決定 であり、原作者に対する 無礼

    • 逆に、プロジェクトの 活用度最大化 のためには正しい選択だったという意見もある
  • AI が原本コードを見た状態で書いたなら、クリーンルーム実装 ではない。
    もし2つの AI チームを置き、一方が仕様を作り、もう一方が実装するなら大丈夫だろうか?
    IBM 時代の先例には従っているが、モデルがすでに原本で学習されていれば依然として問題だ

    • chardet が学習データに含まれているなら、どんな構成でも クリーンルームは不可能
    • 仕様を抽出し、別のモデルがその仕様からコードを書くなら、理論上はクリーンルームが可能だ。
      ただし、仕様に 表現的要素が含まれないことを検証 しなければならない
    • 学習データに原本があるなら、依然として侵害の可能性は高い
    • API 構造も著作権の一部だという主張もあったが、後で修正された
    • IBM/Compaq の事例は表面的にしか似ていない。
      学習データに原本が含まれている状況では、比較自体が無意味
  • 「Wikipedia をコピペして単語を少し変えれば大丈夫ですか?」という冗談のように、
    結局 意図的な回避 は不可能だ。
    依存関係のバージョンを固定しなければならないほど、信頼が難しい時代だ

    • 技術者はしばしば法律を 技術的ルール と誤解する。
      しかし法律は 総合的判断 を重視する。
      裁判所は「証拠の優越」基準で判断し、単に単語を置き換えただけでは新しい作品にならない。
      原本が不可欠だったなら、二次的著作物と判断される可能性が高い。
      学習データに原本が含まれているなら、著作権侵害訴訟 は避けられないだろうと予測している
  • 一方で、Mark Pilgrim が再び登場したのが興味深い
    彼の Wikipedia ページ には「インターネットから姿を消した」逸話がある。
    彼の Python 本は今でも勧める価値がある

    • そのうち「a2mark」GitHub アカウントが Wikipedia に言及されるかもしれない
  • 「AI が GPL コードで学習されているなら、すべての AI コードが GPL 汚染(taint) されているのでは?」という驚きがある

    • ReactOS のように完全なクリーンルームを要求するプロジェクトもあるが、これは法的安全策にすぎず必須ではない
    • 「汚染」を立証するには、実際に 二次性 が証明されなければならない。
      米国のクリーンルーム手続きは単なる 訴訟短縮のための戦略
    • 著作権制度はもともと 資本保護の手段 だったため、実際にそこまで強く執行される可能性は低いと見る向きもある
    • LLM ブーム初期からこうした問題を警告していた人たちがいた