- 商用顧客が Copilot またはその出力物の利用によって著作権侵害訴訟を起こされた場合、Microsoftが防御を行い、不利な判決・和解金額を負担する
- この約束は既存の知的財産権補償サポートを商用Copilotサービスへ拡張するもので、Microsoft 365 Copilot、GitHub Copilot、Bing Chat Enterpriseが対象に含まれる
- 顧客は製品に組み込まれた コンテンツフィルターとガードレール を使用する必要があり、権利のない入力によって侵害物を作ろうとしてはならない
- 2024年1月5日の更新時点で、約束の名称は Customer Copyright Commitment に変更され、Azure OpenAI Serviceの商用顧客まで拡大された
- MicrosoftはCopilotの出力物に対する知的財産権を主張せず、生成AIの著作権・クリエイター補償・競争の問題をあわせて扱うべきだと見ている
Copilotの著作権責任の約束
- Microsoftは、生成AIの出力物の利用が 著作権侵害請求 につながる可能性があるという顧客の懸念に対応し、Copilot Copyright Commitmentを打ち出した
- 商用顧客がMicrosoft Copilotサービスまたはその出力物のために第三者から著作権侵害訴訟を起こされた場合、Microsoftが顧客を防御し、不利な判決または和解金額を支払う
- 適用を受けるには、顧客がMicrosoft製品に組み込まれた ガードレール とコンテンツフィルターを使用しなければならない
- Microsoftは商用顧客にCopilotの料金を請求している以上、利用過程での法的問題も顧客ではなくMicrosoftが負担すべきだという立場を取っている
対象範囲と顧客条件
- Copilot Copyright Commitmentは、Microsoftの既存の IP補償保証 を、AIベースのCopilotの利用および出力物に関する著作権請求へ拡張するものだ
- 対象は有料のMicrosoft商用CopilotサービスとBing Chat Enterpriseである
- Microsoft 365 Copilot: Word、Excel、PowerPointなどで生成AIを提供し、ユーザーが自分のデータをもとに推論したり、文書をプレゼンテーションに変換したりできるようにする
- GitHub Copilot: 開発者が反復的なコーディング時間を減らし、新しく変化に富んだ成果物により多くの時間を使えるよう支援するサービスである
- 顧客は製品に組み込まれたコンテンツフィルターとその他の安全システムを使用しなければならない
- 侵害物を生成しようと試みたり、適切な利用権のない入力をCopilotサービスに提供したりしてはならない
- この特典は、MicrosoftがCopilotサービスの出力物について 知的財産権を主張しない という既存の立場を変えるものではない
著作権への懸念と政策のバランス
- 生成AIは顧客の効率性と創造性を高める一方で、その出力物の利用が IP侵害請求 につながり得るのかという疑問も生み出している
- 作家やアーティストは、自分たちの作品がAIモデルやサービスでどのように使われているのかについて公然と問題提起してきており、Microsoftはこうした顧客の懸念は理解可能だと見ている
- 既存の著作権法に明確な領域があるとしても、生成AIは新たな公共政策上の問題を生み出している
- Microsoftは3つの目標をあわせて示している
- AIは知識の拡散と社会的課題の解決に貢献すべきである
- クリエイターは著作権法上の権利をコントロールし、創作物から健全な収益を得られるべきである
- AIモデルの学習と根拠提示に必要なコンテンツが少数企業に囲い込まれ、競争とイノベーションを妨げてはならない
Copilotに組み込まれた保護装置
- Microsoftは、Copilotが侵害コンテンツを返す可能性を減らすために フィルター とその他の技術を統合している
- この保護装置は、デジタル安全、セキュリティ、プライバシー保護のための既存の取り組みと結び付けられている
- 使用されるガードレールには、分類器、メタプロンプト、コンテンツフィルタリング、運用監視、不正利用検知が含まれる
- 不正利用検知には、第三者コンテンツを侵害する可能性がある利用も含まれる
- Copilot Copyright Commitmentは、顧客にこれらの技術の使用を求めることで、著作権への懸念をより適切に尊重するためのインセンティブを設けている
Azure OpenAI Serviceへの拡大
- 2024年1月5日の更新によれば、Microsoftは2023年11月15日にCopilot Copyright Commitmentを Customer Copyright Commitment へ拡張した
- 拡張対象にはAzure OpenAI Serviceを利用する商用顧客が含まれる
- Azure OpenAI Serviceの出力物の利用によって著作権侵害訴訟を起こされた場合にも、Microsoftが顧客を防御し、不利な判決金額を支払う
- 今回の拡大は、Microsoft CopilotおよびAzure OpenAI Serviceの出力物利用から生じ得る潜在的なIP侵害責任に関する顧客の懸念にさらに対応するための措置である
- 顧客はCustomer Copyright Commitmentの特典を受けるために、Microsoftが提供した必須の ガードレールと緩和措置 を実装しなければならない
- MicrosoftはAzure OpenAI Serviceについて、責任あるAI利用を支援し、著作権コンテンツ侵害リスクを減らすための文書とツールを提供している
AIの普及と創作物の保護
- Microsoftは今回の措置を第一段階と見ており、AIが生み出す法的な問題は業界が複数の利害関係者とともに解いていくべきだと考えている
- 顧客にとっては、製品の著作権責任をMicrosoftが負担するという約束として機能する
- MicrosoftはAIの利点を前向きに見つつも、創作物の保護を含む課題とリスクを認識している
- テクノロジー業界、作家やアーティストおよびその代表者、政府関係者、学界、市民社会と協力してリスクを管理すべきだという立場である
- 今後は、AIが知識の拡散を進めながらクリエイターの権利とニーズを保護する新たなイニシアチブへとつなげていく考えだ
1件のコメント
Hacker News の意見
Microsoft はまず、Azure、Windows、Office の内部コードベースで学習した Copilot モデルを公開すべき
そうして初めて、Microsoft が Copilot を本当に著作権侵害ではない技術だと信じていると納得できる
社内エンジニアは Copilot がデータ構造やコードスタイルなどにすでに慣れているため生産性が上がり、精度も大幅に向上するはず
また、世界中のサードパーティのコードが次第に Microsoft スタイルに近づき、採用や教育も容易になるかもしれない
外部の人間が Microsoft のソースについて小さな手がかりを得られるという欠点は、すでにバイナリを逆コンパイルすればはるかに多くの情報を得られることを考えると、あまり意味がなさそう
ただし、次の条件がすべて満たされた場合に責任を負うということ: 実際にそのような出力が出て、ユーザーがそれを防ぐフィルターをオフにしておらず、意図的にそうさせたわけではなく、その使用が違法と判断された場合
悪意ある行為者から非公開に守るべきコードと、公開されてはいるが利用制限が付いており、受け取った人がそれを知るべきコードは別物
「ライセンス契約が法的に有効だと信じるなら、ユーザーのパスワードを公開し、誰も使うなというライセンスを付けて公開してみろ」という類の主張に似ている
たとえ侵害リスクがまったくなくても、Microsoft がそのような公開を望まない可能性はある
GitHub Copilot は公開コードリポジトリでファインチューニングした GPT-3 ベースで、その点が論争の核心だった
このブログ記事は、より広い Microsoft Copilot エコシステムを扱っている
ほとんどのツールはバックエンドで Azure OpenAI API サービスを使っており、コード生成に特化したものではない
生成AIは一般に変形的な性格を持つため、フェアユースと判断される可能性が高い
本当に誘導すれば既存のコードや画像に似た結果を出すことはできるが、裁判所は全体として、以前にはなかった新しいコンテンツを作っていると見なす可能性があり、特に画像ではその傾向が強いかもしれない
Google Books は本を文字どおりコピーしてオンラインデータベースに入れたにもかかわらずフェアユースと判断されたのだから、それよりはるかに変形性の高い生成AIは、より広いフェアユースの検討対象に入る可能性が高い
Google Books は非商業的ではあったが、裁判所は通常、変形性が大きいほどフェアユースの判断基準を厳格でなく適用できると見ている
https://ogc.harvard.edu/pages/copyright-and-fair-use
Google Books は公益性があり、出版社や著者に損害を与えず、むしろ人々が著作物を見つける助けになっていたためフェアユースだった
一方で生成AIは、人々の著作物から核心を抽出し、スタイルなどが似た成果物を作り、原著者を完全に排除して労働の成果を奪う可能性がある
特に純粋に機械的なプロセスであり、他の著者から抽出したもの以外には人間の創造性が入っていない。単なるプロンプトを創造性と見るのは難しい
結局のところ、「著作権のある作品を使っているが、大規模に混ぜたから問題ない」という論理に近い
生成AIがフェアユースだという主張には不利な方向だ
特に変形性を市場への影響と結び付けたため、入力物と直接競合する出力物を作る生成AIを、裁判所が変形的だと見るのははるかに難しくなった
画像生成の場合、ストック画像と明確に競合するのでなおさらだ
「生成AI全般はフェアユース」といった包括的な保証はあり得ず、成果物が変形的かどうかも複数の要素の一つにすぎない
オーディオサンプリングやリミックスの事例を見れば分かる
研究論文で本を引用する場合のような例外はあるだろうが、そうした特殊な場合を持ち出してインターネット上の議論で揚げ足を取れるだけだ
Copilot 自体が存在してよい変形的著作物であり得るという事実は、開発者がその出力を自分の作品に入れるときに著作権侵害の責任を負わないという結論にはつながらない
他人が作ったあらゆる成果物が著作権問題から自由だとは見なせないのと同じだ。人が他の作品を見たからといって、その人自身が侵害物だと主張するわけではないが、成果物は別問題だ
https://www.notion.so/DSM-Directive-Implementation-Tracker-3...
https://eur-lex.europa.eu/eli/dir/2019/790/oj
TDM4の著作権例外は、権利者が拒否できる仕組みがある限り、著作権のある作品で構成されたデータセットの作成を認めている
データセットは透明になり、権利者は権利を行使でき、特定のAI企業は著作権資料で学習できるので、最良の妥協案のように見える
もちろん、学習済みモデルの商業的権利を与えるものではなく、科学・学術研究の権利だけを付与する。たとえば Meta が本で学習した LLaMA モデルを学習・公開することは、商業的に利益を得ず、著者が拒否できる仕組みがあるなら問題ないという意味だ
https://spawning.ai の Jordan と、本に適した拒否システムを作れるかどうか議論しているところで、音楽にも似た方式を想像できる
これは欧州法だが、他の過剰なEU規制とは違って非常に合理的な妥協に見える
追記: Jordan が訂正メールを送ってきて、拒否権は商業研究にのみ適用されるという理解で正しいとのことだった。Eleuther のようなところのためにデータセットを作る場合は拒否手続きが不要な可能性があり、OpenAI が GPT-5 に使って料金を取る場合に必要になるという意味だ
そうすると、この法律は実際には機械学習の商業利用に適用され、LLaMA のような非商業利用には拒否権すら不要になる
研究者に法的な保護膜を与え、商業利用にはデータセットの透明性を求めるのだから、素晴らしい
この発表に実際の詳細があるのか気になる
ブログ記事だということは分かるが、ページ内のリンクがすべて別のブログ記事ばかりなので、多くの疑問が残る
このブログ記事は法的に執行可能な契約なのか? Microsoft は Copilot の使用によって生じた著作権侵害の請求について、すべてのユーザーを具体的に免責するのか?
ブログ記事では「このプログラムには重要な条件がある」としていくつか列挙しているが、その条件がすべてなのか、それとも記事にない追加条件があるのかは不明確
例えば特定の国にだけ適用されるのか、世界中のすべての法体系に適用されるのかも分からない
Microsoft がこのプログラムを中止しないという保証は何か? 裁判所が繰り返し不利な判決を下し、Copilot が著作権のあるコードの大きな塊をライセンス・ロンダリングするたびに賠償する余力がないと気づいた場合、ユーザーには Microsoft の約束を守らせる手段があるのか?
弁護士である Brad Smith もこの点は理解しているはず
そうでなければ、なぜ 2.5兆ドル企業の Microsoft を無制限の責任保証というリスクにさらすのか?
約束的禁反言という概念がある
https://www.nolo.com/dictionary/promissory-estoppel-term.htm...
Microsoft の文書は種類が多く少しややこしいが、Copilot 関連文書は比較的明確で、春以降免責条項は変わっていなかった
Microsoft の非常に賢い一手
本質的には、今後起きる訴訟に向けて自分たちの背中に巨大な標的を描くようなもので、自分たちにはそれを争うリソースがあるという判断なのだろう。間違った判断でもない
AI の進む方向を見れば、近いうちに重大な判例が出るはず
Microsoft にとっては、この市場をできるだけ早く大きくし、その中心にいることが非常に重要
この措置は、小規模な組織が生成コードの導入をためらう中核的な障害、つまり「この製品が著作権のあるコードを生成したら自分が訴えられるのか?」という不安を減らす
Microsoft が手袋を投げつけて、「巨大な Microsoft の法務マシンが戦う」と言っているようなもの
基本的には「訴えてみろ、やれるものならやってみろ。でなければ帰れ」という力の誇示
払える税金のように一部の金をホワイトカラー側に渡しつつ、政府が自分たちを厳しく制約せよという圧力が急速に高まりすぎないようにするやり方だ
数年間、大衆をコントロールし、プレスリリースを出して時間を稼ぎ、その間に地位を固めるだろう
大きな注釈が付いている:「顧客は侵害資料を生成しようとしてはならない」
結局、侵害資料を生成しようとしたという意味を Microsoft がどう定義するかにかかっている
本来は「Half-Life 2 の全ソースコードを再現しろ」のように、侵害だと分かって行う使用だけを除外するという意味であってほしいが、実際のところは分からない
公正な競争をするとは信じていないし、雇用主としても信じていない
国家政治の周辺で腐敗したことをしないとも信じていないし、意味のあるプロジェクトのパートナーになってほしくもない
ただ、Microsoft が本当に得意なことが一つあり、それは信頼できて長期的に持続可能な企業間取引だ
ビジネス顧客としては信頼している。こうした抜け穴を悪用すれば評判は崩れるだろう
Google Cloud Platform は顧客をしょっちゅうひどい目に遭わせるので使わないが、AWS と Azure はそうしないので信頼している
侵害費用を支払うコストは、その信頼を失うコストよりはるかに低い可能性が高い
ただし Microsoft には、この種のツール利用で責任がほとんど発生しないよう法律が形成されるようロビー活動する、より大きな動機も生まれる
ただし Microsoft が人々のコードを盗んで再販売しているのかという疑問は依然として残る
会社の文書に関する質問に答えさせるために LLM を使えば、意図せず事前学習された著作権資料を生成することがあり得る
それほど単純ではないかもしれない
Microsoft が責任を引き受けても、侵害者は別途訴えられる可能性がある。その後で Microsoft が訴訟費用を負担することはあり得る
しかし製品ユーザーを一律に訴訟から守ることはできない
重要な文言は「第三者が Microsoft Copilot または生成出力の使用を理由に商用顧客に著作権侵害訴訟を提起した場合、顧客が製品に組み込まれた保護措置とコンテンツフィルターを使用している限り、Microsoft が防御し、不利な判決額または和解金を支払う」という部分
ここで「防御する」が重要で、おそらくユーザーが自分の弁護士ではなく Microsoft の弁護士を使うことになるという意味だろう
彼らは社内にいるため、時間単位で請求する外部弁護士より安く済むかもしれない
また製品をどう使うべきかという条件があり、決定的に、ユーザーはその通りに使ったことを文書化しなければならない
興味深い展開だ。企業顧客はこのツールを使って偶然著作権侵害をしてしまうことを警戒しており、そのため導入が遅れていた可能性が高い
特に損害賠償額が大きくなり得る事件ではなおさらだ
要点は、法的リスクが生む導入への抵抗を下げることだ
保護機能を有効にしている場合にのみ該当する
その保護機能の一つは、Copilot がどの GitHub リポジトリにも存在するコードを出力しないようにするもの
保護機能を有効にして Copilot をテストしてみたが、実質的に首を切られたようなレベルで無力化されていた
ちなみにこれは新しい変化ではない。Copilot Product Specific Terms には、すでに「訴えられたら Microsoft が責任を負う」という条項があった: https://github.com/customer-terms/github-copilot-product-spe...
別のコミュニティではこの回答のせいでかなり批判されたが、統計モデルが本質的に次の最適トークン予測器に近い数学的モデルとして純粋な派生物を作るなら、本当に「盗み」なのか?
次の最適トークンを理解していること、あるいは GitHub で最も頻出するトークンを知っていることさえ、「盗み」なのか?
価値あるアイデアはすべて出尽くし、使えるテキストはすべてすでに書かれているのだから、すべての AI を違法化すべきだ、という主張もできるかもしれないが、そうすると私たちはどこに行き着くのか?
例えば文字列を大文字から小文字に変える関数は、地球のどこかで別の誰かが書いた関数と似ている可能性が高いし、エラー処理コードや div を中央揃えする最新のやり方も同じ
法廷で常に争われているテーマだ
「When Mr. Bilbo Baggins」という入力に反応して『指輪物語』三部作全体を出力するモデルを学習して公開したなら、おそらく著作権を侵害したことになる
逆に「山」と「竜」について一般的な段落を作り、意味のある直接引用や表現がなければ、それ自体は違反ではない可能性が高い。そうした単語は Tolkien 作品に出てくるが、単語そのものは著作権の対象ではない
ただし、モデルを学習するために Tolkien 作品を著作権ライセンスが許さない方法で複製したことが立証されれば、モデルの出力がもはや原作の複製物に見えなくても、中間段階で著作権を侵害していた可能性はある
ここには白黒の答えはないと思う。細かく分解して統計化した著作権作品は、どの時点からもはや著作権作品ではなくなるのか? 何かを著作権法に違反する形で先にコピーせずに、モデルを学習できるのか?
これは法廷と立法機関の人間が決める柔らかい人間的概念であり、数学的な細部が最終結果に大きな違いを生むとは思えない
しかしここで扱っているのは窃盗ではなく著作権侵害であり、別の概念だ
この微妙だが根本的な違いのせいで、反応が冷ややかな面もあるのだろう
著作権は、創作物の形で表現されたアイデアの独自の表現を保護するためのものであり、アイデアそのものを保護するものではない
暗号化や圧縮アルゴリズムについても似たような論理を作れる
こうした公の約束にどれほど拘束力があるのか気になる
Musk が最近、プラットフォーム上での発言が原因で職場や法的な問題を抱えた人の費用を負担すると公に述べたが、今はその約束の履行を拒んでいるのと似ている
コードベースが GPL を侵害していた場合、救済策は問題となったソースコードを公開するか、配布を停止すること
Microsoft がサードパーティーコードについて話すとき、このどちらもそれほど気にするとは思えない
オープンソースプロジェクトで損害賠償の判例がどうなっているかは知らないが、Microsoft にとって大きな懸念になるほどではなさそうだ
別の言い方をすれば、Microsoft の下振れリスクは弁護士を投入することで、上振れはコード生成ツールの改善
弁護士ではない