- Stack OverflowとOpenAIの契約により、Stack Overflowのすべての質問と回答がGenerativeAIモデルの訓練に使用される予定
- これはCC-BY-SAライセンスで求められる著作者表示なしに行われることになる
- CC-BY-SAライセンスでは、派生著作物も同じライセンスで共有されなければならない
- そのため私はStack Overflowにデータ削除を依頼し、アカウントを閉鎖した
- Redditでも同じ措置を取った
- 自分が作ることに貢献したデータがLLMに組み込まれ、再び自分に売られることになるからだ
- Stack Overflowは一気に、競争優位の主要な源泉であるコミュニティを遠ざけてしまった
- 以前は、助け合えるときに助け、将来は別の誰かが助けてくれるという期待のもとで、心理的契約が果たされていた
- 今や交換ではなく、
#enshittificationになってしまった
- プログラマーたちも今や、アーティストやコピーライターたちのように、自分たちの成果物がGenAIソリューションの制作に動員されてしまった
- OpenAIがGitHubのCopilotのようにコードを生成するLLMを作れば、生成されたAIモデルが持ち込んだバグの助けをどこで得られるのか疑問だ
- 最近のGitClearレポートによると、このようなツールは「コード品質への下方圧力」を引き起こしている
- これは
#enshittificationのもう一つの事例であり、DevRel担当者にとって重要な教訓でもある
- コミュニティが競争優位の源泉なら、彼らを怒らせてはならない
14件のコメント
enshittificationは新語のようですね。<人間とAIは異なる扱いをすべきか?>
人間のホン・ギルドンが、Stack Overflowを含めてインターネットを巡回しています。彼は複数の文章を読んで、ある特定のテーマについてさまざまな知識を得たとしましょう。ギルドンには、自分が学んだことを分かりやすく再び一般化し、整理して外部ブログに書く習慣があります。この場合、CCライセンスとは関係ありません。著作者表示の義務もありません。なぜなら、引用ではなく学習したものだからです。
AIは人間のようにニューラルネットワークで学習します。複数のソースをそのままコピーして話しているわけではありません。人間のように、それなりに自分で知識を分析し、自分なりの考えを定立し、再配置して話します。
むしろAIの自由を制限し、他人の言葉をそのまま「引用」させるほうが、やや難しいです。そのためにRAGを使うのは簡単ですが、引用するように学習させるのはさらに難しいです。
しかし、AIに対して別途「自分の考えを話さず、他人の文章(コード)をそのまま引用しろ」と言わなくても、他人の言葉をコピーするように持ち出してくる場合はあります。この場合は、そのソースがあまりにも有名なケースです。たとえばシェイクスピアや映画の名台詞などはあまりにも有名なので、そのまま出力します。人間も、このような有名で繰り返し触れる内容は語句をそのまま覚えてしまいますが、AIも同じです。この場合、人間と同様にAIもたいてい出典を自ら示してくれます。
結論として、果たして学習して話す内容についてCCライセンスや著作権を要求できるのか疑問です。すでに「学習」ではなく「推論」(学習を終えたAIを使うこと)の分野では、上記のような理由から、原ソースの著作権をほとんど認めないことが世界的なトレンドになりつつあります。
コメントありがとうございます。
開発者ホン・ギルドンは SO にある回答から「学習」してブログを書くかもしれませんが、大学院生ホン・ギルドンは他人の論文を少しでも「引用」したなら、その出典を残すでしょう。私たちが交わしている議論の文脈が哲学や発明ではなくプログラミングの世界なのであれば、学習とは何で、引用とは何でしょうか?
通常は出典が残るという点では反例があります。
この点は時間がたてば解決する可能性もありますが、Copilot が Quake の fast invert sqrt コードをそのまま持ってきたことから始まった論争であり (https://news.ycombinator.com/item?id=27710287)、あのコードはよく知られているコードだから気づかれただけで、あのようにいわゆるコピペされたコードがどれほど「生成」されたのかは誰にもわかりません。
とても興味深い視点ですね。大いに参考になりました。
興味深い視点ですね。
韓国的な感覚で見ると、「業者に渡してしまったコミュニティカフェ」と見る立場と、「どうせ二次創作なのだから別にいいのでは?」という感覚ですね。
ただ、私はSNSに載せた自分の写真が商業的に利用されるような感じなので、あまり歓迎したくはない気がします
> 人間のように、それなりに自分で知識を分析し、自らの考えを定め、再構成して話します。
LLMに価値観や考えがあると主張されているようですが、その意図で合っていますか? 結論には影響しないものの、推論に著作権を適用すべきでない根拠としては適切ではないように思うので。
各単語をトークン化し、その埋め込み情報を latent space に適切に入れて整理する過程は、抽象的に見れば価値観や考え方にたとえられると思います。
電脳化に関連して。
「価値のある脳だけが保存されるだろう。」という誰かの言葉を思い出します。
SO側は果たして誠実に削除するのでしょうか? それとも Deleted フラグだけ立てておいて、後になって「技術的なミスにより学習に使用されていた」と発表するのでしょうか?
> しかも、そもそも韓国やヨーロッパとは違って、「忘れられる権利」をめぐる議論が終わり得ないアメリカですし……
このあたりの背景知識がなかったので少し検索してみたのですが、もしかして表現の自由と忘れられる権利が衝突するからでしょうか? まだ合意がないため、立法もされていないということですか
うわあ、本当にこういうこともあり得るんですね。
Stack OverflowとOpenAI、パートナーシップを締結
Stack Overflowユーザー、OpenAIとの提携後に回答削除が相次ぐ