- GitHubが個人リポジトリのコードとデータをAIモデルの学習に活用する計画
- ユーザーは**4月24日以前に明示的に拒否(opt-out)**しないと、データ利用を止められない
- 拒否しない場合、非公開プロジェクトの情報が学習データに含まれる可能性がある
- この方針はGitHub CopilotなどのAI機能改善のためのデータ収集に関連している
- 開発者はプライバシー保護とコードの安全性のために設定確認が必要
GitHubのAI学習データ方針の変更
- GitHubがAIモデル改善の目的で、個人リポジトリのデータを学習に含められるよう方針を変更
- ユーザーが別途拒否しなければ、自動的にデータが利用される
- 拒否はGitHubの設定ページから直接実行できる
- 学習データには非公開コード、プロジェクトのメタデータ、コミット履歴などが含まれる可能性がある
- この措置はCopilotおよびその他のAI機能の品質向上のためだと説明されている
開発者への影響
- 個人リポジトリが学習に使われる場合、機密性の高いコードや内部ロジックが露出するリスクがある
- 企業および個人の開発者はセキュリティポリシーの見直しとopt-out手続きの実施が必要
- 今回のGitHubの変更は、AI学習データの透明性とユーザーのコントロール権をめぐる議論につながる可能性がある
3件のコメント
数日前からGitHubにずっと表示されていました。
Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.
opt out はしましたが、以前からすでにAIに活用していたのではないかという気がします。
あまりにも図々しいフェイクニュースじゃないか
Hacker Newsの反応
2023年からずっと言われていること。データベースに保存された情報が企業が自由にアクセスできる形になっているなら、結局その企業はAI学習用データとして使えるように利用規約を変更するはず。インセンティブが強すぎて避けられないと思う
「そうではない」と主張し、GitHub公式ブログ へのリンクを共有。Free、Pro、Pro+ Copilot ユーザーは opt-out しない限り利用データがモデル学習に使われる。Business や Pro サブスクライバーは学習対象にならない。Copilot を使っていなければ影響はない。今のうちに opt-out しておけば、後で設定は維持される
このニュースのタイトルには誤解を招くところがある。GitHub が private repo そのものを学習するのではなく、Copilot 利用中に発生するインタラクションデータを学習する。Copilot を使っていなければ影響はない。それでも無効にしておいたほうがいい
正確に言うと、opt-out はCopilot学習用の設定。これまでは public repo のみが opt-in だったが、4月24日からは private repo もデフォルトで含まれる。private repo で Copilot を使っているなら、github.com/settings/copilot で opt-out したほうがいい。30秒で済む
チームで1人でも opt-out していなければ、Copilot がrepo 全体にアクセスできるのか気になる。チームメンバーの設定状態を確認する方法があるのかも知りたい
現在の設定はユーザー単位でしかできない。組織全体で一括無効化する方法があるのか気になる。1人でも設定を有効にしたら、組織のコードが学習データと見なされるのではないかと心配だ
GitHub がバナー告知を継続的に出していたことは認める。でも自分も今回の HN 投稿を見るまではそれを読んでいなかった
自分の private repo はぐちゃぐちゃなコードなので心配する必要はない。むしろ LLM が自分のコードで学習したら損をするはずだ
GitHub を長年有料で使ってきた人のうち、告知を見ていない人たちは気の毒だ