NYタイムズの著作権訴訟、OpenAIにすべてのGPTインスタンス削除を要求

(arstechnica.com)

1 ポイント投稿者 GN⁺ 2023-12-29 | 1件のコメント | WhatsAppで共有

ニューヨーク・タイムズは、OpenAIの関連会社とMicrosoftが自社コンテンツを無断で学習・出力に利用したとして、GPTインスタンスと学習データセットの削除まで求める著作権訴訟を提起
主要な争点は、モデル学習そのものだけでなく、GPTベースのツールがTimesの有料記事内容をほぼそのまま再現し、有料の壁を回避できるかどうか
Timesは、Common Crawlに自社サイトの固有レコード1,600万件が含まれており、GPT-3.5以前に公開された学習データでは3番目に多く参照された出典だったと主張
Ars Technicaの検証ではChatGPTでその回避は防がれたように見えたが、Copilotは特定のTimes記事の第1段落を求めると、記事冒頭のかなりの量を再現
訴訟には著作権侵害、DMCA、商標権、不正競争の請求が含まれ、永久差止命令、損害賠償、返還、不当利得の回収を求めている

訴訟対象と主要な要求

ニューヨーク・タイムズは、OpenAI関連の複数企業とMicrosoftを相手取り著作権侵害訴訟を提起
MicrosoftはOpenAIのパートナーとして、CopilotサービスをOpenAI技術で動かし、GPT大規模言語モデル学習のためのインフラ提供に関与したとして訴訟対象に含まれている
要求には、Times資料で学習されたすべてのGPTインスタンスの削除と、学習に使われたデータセットの破棄が含まれる
今後の類似行為を防ぐための永久差止命令も併せて求めている
金銭的救済には、法定損害賠償、填補的損害賠償、返還、不当利得の回収、法または衡平法上可能なその他の救済が含まれる

Timesが見る被害の構造

Timesは、多くの記者と取材人員を維持して幅広い分野の報道や調査報道を行っており、その結果として多くの案件で権威ある情報源と見なされていると主張
こうした報道コストを回収するため、Timesは強力なペイウォールで記事へのアクセスを制限している
紙版の著作権表示、利用規約での複製・利用制限、選択的なライセンス方針によって著作物の利用を統制
OpenAIのツールがTimesコンテンツを許可なく提供すれば、読者との関係が損なわれ、購読・ライセンス・広告・提携収益が奪われることが、訴訟の中心的な被害論理となっている

学習データ利用をめぐる争点

Timesは、GPTの複数バージョンの学習過程で自社コンテンツが無断使用されたと主張
GPT-3.5以前は学習データセット情報が公開されており、その1つであるCommon CrawlにはTimesサイトで公開された固有レコード1,600万件が含まれていたとみている
その基準では、TimesはWikipediaと米国特許データベースに次いで3番目に多く参照された出典だった
OpenAIは最近のGPTバージョンについて学習データの詳細をあまり公開していないが、訴訟はTimes記事全文が依然として学習過程に含まれていたことをうかがわせる状況証拠を示している
事件が進行すれば、学習データへのアクセス情報が証拠開示手続きの主要な争点になる可能性がある

出力段階で明らかになった再現問題

訴訟は、著作権資料が学習に使われたことだけにとどまらず、学習済みの資料が利用時に再び出力されうる点を強調
Timesは、OpenAIベースの生成AIツールがTimesコンテンツを文章そのままに読み上げたり、非常に近い形で要約したり、表現スタイルを模倣したりできると主張
訴訟資料には、GPT-4がTimes記事の大部分をほぼそのまま再現した事例が含まれている
例示されたプロンプトは、ChatGPTにTimes記事の見出しを与えて第1段落を求め、その後も次の段落を順に要求するというもの
Ars Technicaが同じプロンプトの一部を試したところ、ChatGPTはTimesのウェブサイトや他の信頼できる情報源で確認するよう勧めたが、以前の文脈があれば著作権資料が出力される可能性は排除できないとみている
CopilotはBing Chatから名称変更されたサービスであり、Ars Technicaは特定のTimes記事の第1段落を求めたところ、記事冒頭のおよそ3分の1を再現することを確認した

フェアユース反論と評判被害

OpenAIとMicrosoftは、生成AIモデル学習のための無許可の著作権コンテンツ利用は新たな変形的目的を提供するためフェアユースに当たると公に主張してきた
Timesは、対価を支払わずにTimesコンテンツを利用し、Timesを代替して読者を奪う製品を作ることに変形性はないと反論
AIのハルシネーションもTimesの評判価値を損なう要素として示されている
例として、GPTモデルが2020年1月10日にTimesがオレンジジュースと非ホジキンリンパ腫の関連性を扱った記事を掲載したと作り上げたが、Timesはそのような記事を出したことはないと主張
心臓の健康に良い食べ物に関するTimes記事について、Copilotが原文にない例のリストを提示し、求められたリストの80%は元記事で言及されていない食品だったと訴訟は主張
Wirecutterの推薦事例では、スタッフがレビューしていない製品がWirecutterの推薦として帰属されたと主張している

Wirecutterと提携収益の問題

WirecutterはThe New York Timesが所有するメディア
訴訟は、CopilotがWirecutter記事の大部分も出力できると主張
該当記事の抜粋ではアフィリエイトリンクが除去されており、Wirecutterの主要な収益源が遮断されるという問題が指摘されている

法的請求項目

訴訟は、OpenAI関連企業にソフトウェア開発責任を問い、MicrosoftにはOpenAIベースのサービス提供および学習インフラ構築の責任も併せて問う
請求項目には、直接著作権侵害、寄与侵害、代位侵害が含まれる
さらにDMCA違反、商標権侵害、そして不正競争による盗用も提起されている

1件のコメント

GN⁺ 2023-12-29

Hacker News の意見

LLM の要素を取り除いて、合法的にスクレイピングした NYT 記事でプロダクトを作ったら、それはフェアユースなのか疑問です。
たとえば記事をホスティングしてインデックスを提供し、「過去5年間の米英関係に関する記事の要約」のようなリライト機能を有料で販売するとします。NYT には月額購読料だけ払って、原文を長くそのまま吐き出さず、短い引用だけ使うとしても、フェアユースのようには聞こえません。
通常、個人向け料金プランの製品を持ってきて、その派生物を第三者に有料で売ることはできません。VS Code のような場合も同じです。
検索エンジンとは大きな違いがあります。検索エンジンは元ソースを代替せず、むしろ原文へ送り、記事への課金機会を与えます。一方、この種のプロダクトや LLM は、NYT 購読を実際にはしなくても済む代替品として NYT コンテンツを使っていることになります。
- あなたが説明したものは、実際には完全にフェアユースに当たります。
  さらに二流以下の媒体のニュース記事を見ると、そのほとんどが NYT のようなところから直接持ってきた内容だと分かります。普通は「The Times によると、誰々が何々をした」と書き、たいてい原文リンクも付けています。
- 考慮すべきもう一つの要素は、ニューラルネットワークが非可逆圧縮のように振る舞い得るという点で、過学習したモデルではそれが非常にはっきりします。
  場合によっては過学習しすぎて、非可逆圧縮ですらなく、データがニューラルネットワーク内に原文のままエンコードされることもあります。
- 「NYT 記事の原文の塊をそのまま吐き出すのではなく、ごく短い抜粋程度だけを使う」というのは、実質的に Google を説明しているものです。
  考えてみると Google が合法だというのは驚きですが、Google のやっていることは完全に合法だと確立されています。内部的には Google はインデックスした全ウェブページの完全な原文コピーを保管し、利用しています。
  もちろん Google は元ソースへのリンクを提供します。OpenAI もそうしたとして、クリック率が 0.1% にすぎず、NYTimes の収益にほとんど役立たなくても合法と見るのでしょうか？原文どおりに出力しようとする瞬間を検知して、単に言い換えさせるようにしたらどうでしょう？ NYTimes が自社記事の言い換え版に著作権を持つわけではありません。実質的に何の違いもないのに、政府がそのような迂回処理を強制するなら、かなり滑稽です。
- ニュース記事を実質的に要約し、時には引用する記事やブログ記事を書くのは、ごく一般的なことではありませんか？
- 「合法的にスクレイピングした NYT 記事でプロダクトを作ればフェアユースなのか？」という問いは、良い問いではありません。
  窓の外を見て、隣人が店へ行くのを見るのは問題ありません。しかしカメラで通りのすべての人を追跡してデータベースに入れれば、多くの場所で問題になり違法です。
  規模が大きくなるとき、論理が必ずしもそのまま適用されるわけではありません。
訴訟には ChatGPT/Bing Copilot が NYT を原文どおりにコピーした事例が出ています。このようなコピーをフェアユースだと主張するのは難しそうです。
ただし OAI/MS は現在のパラダイムの中でも修正できるはずです。RLHF で剽窃を認識し、ペナルティを与えるよう学習させればよいのです。
しかし訴訟は、単にそうしたコピーが著作権侵害だという点をはるかに超えています。「LLM の訓練のために Times の著作物を無断複製することは、変形的目的によって正当化されない代替的利用だ」と主張しています。
これは、記事を訓練データとしてダウンロードした行為自体が著作権侵害だという強い主張です。GPT が原文を出力するという点は、目をそらす要素かもしれません。裁判官がそれを見抜き、モデルの何が変形的利用になり得るのか、なり得ないのかという、興味深く大きな利害が絡む不明確な法的論点に集中してほしいです。
- 「RLHF で剽窃を認識し、ペナルティを与えろ」というのは RLHF の問題ではありません。
  期待していた方法は、既知の著作権コンテンツの n-gram Bloom filter を維持することです。たとえば記事内の連続する7単語の集合をすべて列挙して検証し、モデルが元ソースとまったく同じ単語を最大 n-1 個までしか出力できないようにする、といった具合です。
  しかしこれは逆風を招くでしょう。AI 企業はコンテンツの出典表示にさらに多く投資するようになり、新しい出典表示ツールは誰でもこっそり GPT を使える以上、人間が書いたすべての記事にも適用されるでしょう。そうなると創造性に萎縮効果が生じる可能性があります。また、NYT が書いたすべてが独創的というわけではないので、NYT も他のあらゆる出典と照合しなければなりません。
- NYT が勝つ気がします。
  LLM は、奇妙なアルゴリズムを持つ圧縮データアーカイブと見なせる余地があります。訓練データを定期的に原文どおり吐き出せるという事実と、それを防ごうとする安全策がその証拠です。
  2つ目の証拠はここで説明されている論文です: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... 研究者たちは LLM の代わりに gzip 圧縮データをモデルとして使い、訓練済み LLM に勝つことすらありました。
  AI はある程度ブラックボックスですが、ブラックボックスを運用しているという理由で権利侵害訴訟から保護されるわけではありません。著作権のあるデータをかき集めてデータベースを作り、そのデータへのクエリがフェアユースだと特許を取ることはできません。
  ここには法律が必要で、その法律が「モデル訓練用なら誰もがあらゆるものを無料でコピーできる」というものにはならないでしょう。ライセンスを整理する必要があり、判例だけでなく実際の法律も書く必要があります。オープンソース研究者やハッカーに広い裁量を与えることにはかなり共感しますが、Microsoft と、Microsoft が支援する OpenAI にはそこまで共感しません。
- フェアユースの多くの場合が、原文どおりのコピーを含みます。重要な問いはコピーそのものより、そうしたコピーが起きる状況です。NYT はまだ開拓されていない領域に入ってきています。
- 「RLHF で剽窃を認識し、ペナルティを与えろ」という提案が実際にどう機能するのか分かりません。推論中に剽窃を認識するには、むしろより強く暗記していなければなりません。
  もし機能するなら、かなり笑えます。まず訓練データを原文どおりコピーするように訓練し、その後で再びそうしないように訓練するわけです。
  そもそも動作方式がそうではありませんか？損失関数がそういうものなので、訓練データを原文どおりコピーするように訓練されます。ただデータが非常に多いため、パラメータ数を考えると、大半の訓練データについてそれが可能だとは期待しないだけです。
- 著作物をコピーして元の表現目的のまま使うのは、フェアユースではないのでは？ 変形的目的で使う必要があります。
  私が New Jersey Times という購読サイトを売り、単に New York Times の記事をダウンロードしてランダムなノイズの入ったオートエンコーダに通すだけだとしましょう。目的は New York Times のウェブサイトとまったく同じで、稼ぐのは私だけです。これはフェアユースですか？
NYTは津波の前に砂の城を築いている。大局的に見れば、この訴訟はいくつもの理由で重要ではなくなるだろう
第一に、次世代のLLMは「合成」データ／公開データだけで訓練されるようになる。GPT-4Vなら、著作権のある訓練コーパス全体を、見分けがつかないほど簡単にロンダリングできる。たとえば40%を書き換え、著者と出典を取り除く、といった具合だ。そうすればGPT-5が吐き出す著作権資料はなくなる
第二に、研究・ホスティング・進歩は続く。米国はそれを止めることはできず、遅れを取る選択ができるだけだ。世界は前に進み続け、中国は最大の競争相手がレントシーキングなメディア企業をなだめるために知的自殺をする様子を、楽しげに眺めるだろう
第三に、モデルは重みを共有し、互いにマージし、協力し、削除し、複数世代のリリースにわたって進化できる。著作権法は、出所が不明または疑わしいデータで煮立った、このようなAI系譜のスープの中から侵害者を追跡するには、ひどく不向きだ
好むと好まざるとにかかわらず、私たちは新しい知的時代に生きている。NYTなどは、望むと望まざるとにかかわらず、この流れに乗ることになる
- これは本当に悪い解釈だ。結果に訴える論理になっている。New York Timesが法的措置を取るのは完全に正当だと思う。コンテンツを作るために時間と労力を投じたのに、許可なく金銭的利益のために使われた。明白な侵害だ
  フェアユースの要素を見ると、利用の目的と性格については、将来的には変容的利用という論理が成り立つ可能性もあるが、現在の争点は原文そのままの使用にある。したがって明らかに変容的ではない。商業利用であることも、フェアユースの判断をより難しくする
  著作物の性質については、より事実的な著作物ほどフェアユースと認められる可能性は高いが、NYTの記事は事実的でありながら創作性もあると思う
  使用された量と実質性については、記事全体が使われているので、ごく一部だけを使ったと主張する余地はない
  市場価値への影響についても、NYTは対価を受け取っておらず、人々がNYTの記事を読まずにChatGPTで確認するなら、市場価値にプラスになるはずがない
  法律家ではないが、NYTには訴訟を起こす十分な権利があると思う。進歩は必然だが、人間はそれを積極的に形作り、導かなければならない。そうでなければ進歩とは呼べない。ここでの法的措置は、個人や組織が自らの権利を主張し、方向性に影響を与えるために必要な手段だ
- 「レントシーキングなメディア企業」だって？実際にコンテンツを作っているメディア企業がレントシーキングなのか？ AIが生み出すゴミのような幻覚と比べて？
- 「中国は米国が知的自殺をするのを楽しげに見ている」というのは、すでにAIに対する広範な規制を導入している、まさにその中国のことを言っているのか？
  少なくともある事例では、中国のスタートアップが新たに公開したチャットボットを閉鎖せざるを得なかった。ウクライナ戦争について、党の公式見解と合わないことを述べたためだ
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  研究・ホスティング・進歩が続くという点には同意するが、米国がこのジェットコースターに安全装置を少し追加したからといって、受益者が中国になるのかはよく分からない
- メディアは本当にレントシーキングなのか？彼らは新しいコンテンツと分析を作り、その対価を受け取りたいだけだ。天然資源や土地を買い占めることとはかなり違って見える
- インターネットの第一法則は「インターネットに上げたら、もはやそれはあなたのものではない」だ
  同意する必要も、好きになる必要もない。だが受け入れて、それに合わせて生きれば、ずっと痛い目を見ずに済む
訴状そのものは、arstechnicaがリンクしているこの文書だ: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
30ページ以降に、ChatGPTが著作権のある資料の内部コピーを持っていて、それを原文そのまま暗唱していることを示す、かなり明確な例がある
本質的には、著作権のある資料を大量に何らかの塊へコピーしたうえで、非可逆圧縮を適用した状況だ。著作権がもはや適用されなくなるには、その圧縮はどれほど破壊的でなければならないのだろうか？かなり大きく破壊される必要がありそうだ
OpenAIを救うのは、むしろクローズド性かもしれない。OpenAIは、ChatGPTが訓練されたデータセットの著作権部分と単純に照合し、Webインターフェイス上で著作権資料がLLMの外へ出ないようにフィルタリングして遮断できる。一方、同じデータセットで訓練したオープンソースプロジェクトは、著作権資料をLLMそのものから取り除くという、はるかに難しい課題を抱えることになる
- 「著作権のある資料を大量にコピーして塊に入れ、非可逆圧縮を適用する」という部分の目標は、おそらく「盗んだことに誰も気づかない程度」に近いのだろう
  簡単には発見されないようにする、あるいは直接分析されても、十分にもっともらしい否認可能性があって逃れられる程度、ということだ
- この結果をどうやって得たのか気になる。通常のUI、つまりChatGPTやCopilotの画面を見せていないからだ
  訓練データから繰り返しているのか、それとも元記事のようにCopilotを使ってまず記事を検索／Bing検索させ、その後で答えさせたという同じミスをしたのか、判断しにくい
- 「クローズド性」への答えは、外部から管理される監査だ
訴訟で挙げられている例が「フェアユース」だと思うなら、それが何を意味するのか考えるべき。実質的には、いくつかの企業がインターネット上のあらゆる価値を自社のブラックボックスの中に統合することを、ほとんど何のルールもなく認めることになるが、これは非常に危険に見える。
今回の件でなくても、裁判所がここで交戦規則を定めてくれることを望む。
- まったく逆に見ている。高品質データのコストが数十億ドルになれば、どんなオープンソースモデルも訓練費用を負担するのが難しくなる。
  合成データを誰かが解決するまでは、この分野にはOpenAIやGoogleのようなプレイヤーしか残らなくなるだろう。
- スクレイピングは合法であり、これは変形的な著作物のように見える。
- 反対側も懸念される。知的財産権法は常に複雑で、泥臭く、矛盾しており、道徳的にも曖昧だった。
  LLMの知的財産権侵害をめぐる論争は、こうした内在的な欠陥を即座に露呈させ、最終的には人間の思考の合法性に関する先例を作る判断を強いることになる。誰にとっても居心地の悪い問題だ。
  OpenAIとMicrosoftにあまりにも大きな裁量を与えるのが危険になり得ることは理解できるが、逆にDisneyのような企業がすでに何十年にもわたって著作権法の大半を事実上左右してきた点を見落としている。何らかの媒体や情報と、どのようなレベルであれ相互作用する能力にまで金を払わなければならなくなる先例が出る可能性に、彼らは舌なめずりしているだろう。
  結局のところ、私たちはアイデアに対する所有権という根本的に欠陥のある発想の上に巨大な経済システムを築いてきたことに気づきつつある。解決策はルールブックを破り捨てることだが、それは非常に苦痛を伴うだろう。あるいはさらに押し進めることだが、それは致命的だろう。
- 裁判所はすでにこれを決めている。
  日本では、AIについては何でも可能だとされた。
  公開でインターネットに上げたもののせいで競争優位を失わないようにする方がよい。みんなに見せるために出したのなら、他人が使うことを想定すべきだ。
開発者たちは、LLMが人間に似ていて、NYTimesのような資料を人間のように教材として使ってきたのだと装いたがる。
だがそうではない。もっと単純に見れば、プロプライエタリな文章がいまやOpenAIのソースコードに統合されたということだ。私が他のプロプライエタリなコードの一部をコピーして自分のコードベースに貼り付け、コピペは数百万年にわたる進化の自然な過程だと主張するようなものだ。
LLMがあまりに複雑で、それがどこにあるのか分からないという事実は、この性質を弱めるものではない。
- それはコピー＆ペーストではなく、不可逆的に圧縮されたものだ。GPT-4でさえ、訓練データ全体を可逆圧縮形式で保存できるほどのメモリはまったくない。人間が読んだ情報を圧縮するのと似ている。
- LLMが人間に似ていると思っている開発者たちは、あまり賢い部類ではなく、たいてい嘲笑の対象になる。
- 「プロプライエタリな文章がOpenAIのソースコードに統合された」というのは正しくない。
  LLMのソースコードは、おそらくモデルに含まれるニューラルネットワークの形状を説明する数百行のテキストである可能性が高い。
  NYTimesのコンテンツはソースコードの中にはないはずだ。NYTimesはPythonのソースコードを出版しているのではなく、人間の言語によるニュースを出版している。
  LLMは概念的には単純で、大部分は行列乗算、各層をつなぐ非線形演算、アテンションベースのループなどで構成されている。複雑にしているのは、膨大な量の訓練データと計算量だ。
コンテンツを持つ企業はみな金の匂いを嗅ぎつけている。
NYTは自社コンテンツがLLMの訓練に使われること自体は気にしないだろう。手数料さえ受け取れるなら、という話だ。Redditは無料APIを閉じ、訓練用コンテンツを得るには金を払わせるだろう。Discordも、まだやっていなければAI訓練用コンテンツを売るようになるだろう。Twitterもやっている。
以前はLLMが実験にすぎなかったので気にしていなかった。今では数兆ドルの価値がかかっている。
- NYTはコンテンツを「持っている」のではなく、コンテンツを作っている。それが存在理由だ。
- 「彼ら」にはそこで働く人たちも含まれる。誰かがフルタイムで記事を書いているのに、なぜその成果物を無料で渡して、誰かに訓練させ、その結果として金を稼がせなければならないのか。
- LLMが実験だったときは気にせず、いま数兆ドルの価値が見えてきたから動いたのだとすれば、将来を見通せずに眠っていて、OpenAIなどに自社コンテンツへの無料・公開・無制限アクセスを「振り返れば誤って」許してしまったNYTの責任だ、と主張できるのだろうか。
NYTの見方は、今後LLMを物理世界と相互作用し、リアルタイムで学習・重み更新が可能な機械の身体に入れるようになれば、本当に愚かに見えるだろう。
そのようなロボットが著作権のある資料を読んだり、見たり、聞いたりすることがすべて違法になり得る。テレビも見られず、図書館の本も読めず、インターネット閲覧もできない。その過程で著作権のあるコンテンツの一部を記憶してしまう可能性があるからだ。
- 同意しない。問題は原文そのままという部分だ。人間の動作方式と比較しているが、人間もそうすることは許されていない。
  人間にとってはより難しいだろうが、著作権のある本を暗記したうえでテレビでリアルタイムに朗読したり、記憶から複製を作って売ったりすれば訴えられるだろう。
  人間は常に派生著作物を作っており、LLMがそうするのも問題ない。だが原文そのままではいけない。
- 記憶することが問題なのではない。問題はそれを原文そのまま返したり、元へのアクセスを断ったりすることだ。
  写真的記憶力を持つ人がいて、人々が新聞を買う代わりにその人にニュースを暗記してもらうなら、同じ問題が生じる。
  現在、著作権資料の公開実演は侵害にあたる。
- そうしたLLMは権利を与えられた独立した市民なのか。そうなら問題ない。
  そうでなく、すべてが一つの巨大企業に所有され、資本主義がそうするように私たち全員から金を搾り取るために使われるのか。そうなら、禁止することに賛成だ。
- 身体に入ったLLMがタブレットでnytimesを読むことを許されるなら、NYTも気にしないのではないか。
ChatGPTが登場して以降、LLMは変容的著作物としてフェアユースに該当すべきだと主張してきた。法律家ではなく素人意見にすぎないが、法体系がこれについて何と言うのか興味深い
- 訴訟では、GPTがNYTの段落をほぼ原文そのまま再現したと主張している
- 訓練データの規模を考え、ある出力がさまざまな人々による多数の訓練例を補間した結果だと想像すると、この見方は合理的に思える
  数十、数百、数千の出典から断片を借りているなら、誰の著作権が侵害されるのか？音楽のリミックスも複数の出典を借りており、音楽が明確に異なり独創的であれば、ある程度は法的審査に耐えているように見える
  しかし、LLMや現在のAIがフェアユースに該当するという包括的な主張は、モデルが完全で識別可能な個別の著作物を繰り返し再現し、具体的な事例で明白に著作権法に違反する場合、防御が難しくなる。モデルはほとんどの場合リミックスしたり変容的だったりするかもしれないが、毎回必ずそうしているわけではないという証拠がある。もしかすると、この訴訟がAIに特定の著作物を再現しないよう修正させるきっかけとなり、その結果フェアユースの主張がより堅固で、実際に防御可能なものになるかもしれない
- この問いは結局、最高裁まで行かざるを得ない。早いほどよいと思う。明らかにフェアユースだ。生成型エージェントは法的には、人間のアーティストが自分に影響を与えたものすべての総和を活用して新しい作品を作るのと変わらないと見なされるようになるだろう
- ChatGPTに、自分のデータセット由来の記事を出典どおりに原文出力するよう求めたらどうなるのか？
- ペイウォールの向こう側のコンテンツも含めて？
この状況は、2004年に公開された非常に影響力のあるEPIC 2014動画で予見されていた
https://www.youtube.com/watch?v=eUHBPuHS-7s 元はFlashだったため記憶の穴に消え、この低品質の変換版だけが残っている
36秒：「しかし、あなたの知っていたジャーナリズムはもはや存在しない」
40秒：「20世紀のニュース組織は副次的な存在となった。そう遠くない過去の孤独な名残だ」
2分11秒：「2002年、GoogleはニュースポータルであるGoogle Newsも開始する。ニュース組織は反発する。Google Newsは完全にコンピューターによって編集される」
5分13秒：「2010年のニュース戦争は、実際のニュース組織が一つも参加していなかった点で注目に値する。Googlezonは、ソフトウェアの巨人が追随できない機能によって、ついにMicrosoftをチェックメイトする。新しいアルゴリズムを使い、Googlezonのコンピューターはあらゆるコンテンツソースから文と事実を動的に剥ぎ取り、再構成して新しい記事を作る。コンピューターはユーザーごとに新しい記事を書く」
5分55秒：「2011年、眠っていた第四権力が目を覚まし、最初で最後の抵抗に乗り出す。New York Times CompanyはGooglezonを相手取り、同社の事実抽出ロボットが著作権法違反だと主張して訴訟を起こす。事件は最高裁まで進む」
細部が正確に当たっていたわけではないが、全体としての精度は驚くべきものだ。ただし、このタイムラインでは一種のハイパースティションの産物なのかもしれない
https://en.wikipedia.org/wiki/EPIC_2014 EPIC 2014がWikipedia記事のある唯一のFlash動画かもしれないと思ったが、調べてみるとさらに5本あった

NYタイムズの著作権訴訟、OpenAIにすべてのGPTインスタンス削除を要求

訴訟対象と主要な要求

Timesが見る被害の構造

学習データ利用をめぐる争点

出力段階で明らかになった再現問題

フェアユース反論と評判被害

Wirecutterと提携収益の問題

法的請求項目

関連記事

1件のコメント

Hacker News の意見