1 ポイント 投稿者 GN⁺ 2023-07-10 | 1件のコメント | WhatsAppで共有
  • コメディアンで作家でもある Sarah Silverman が、Christopher Golden、Richard Kadreyとともに、OpenAIとMetaをそれぞれ米連邦地裁に提訴
  • 争点は、ChatGPTLLaMA が著者の許可なく、書籍を含むデータセットで訓練されたかどうか
  • 原告側は、Bibliotik、Library Genesis、Z-Library などの shadow library で違法に入手された書籍が、トレントで大量流通していたと見ている
  • OpenAIに対する訴訟では、ChatGPTが BedwetterAraratSandman Slim を要約した事例が、訓練データ利用の状況証拠として提示されている
  • Metaに対する訴訟では、LLaMAの訓練データの出所の一つとして ThePile と EleutherAI の関係に着目し、原告らの書籍が使用データセットに含まれていた可能性が問題視されている

訴訟対象と主要な争点

  • Sarah Silverman、Christopher Golden、Richard Kadreyは、OpenAIとMetaを相手取り、それぞれ米連邦地裁に訴訟を起こした
  • 2件の訴訟の中心は、著作権侵害 に当たるかどうかである
  • 原告側は、OpenAIのChatGPTとMetaのLLaMAが、自分たちの著作物を含むデータセットで訓練されたと主張している
  • 最大の争点は、それらのデータセットが著者の許可なく取得されたかどうかにある

訓練データの出所を巡る論争

  • 訴状では、ChatGPTとLLaMAの訓練に使われたデータセットが違法に取得されたものだと主張している
  • 原告側が名指しした shadow library サイトは以下の通り
    • Bibliotik
    • Library Genesis
    • Z-Library
    • その他の類似サイト
  • それらの書籍が トレントシステム を通じて大量に提供されている点も問題視されている

OpenAI訴訟で示された事例

  • 原告側は、ChatGPTがプロンプトに応じて自分たちの書籍を要約した事例を証拠として提示している
  • 証拠に含まれた書籍は以下の通り
    • Sarah Silverman の Bedwetter
    • Christopher Golden の Ararat
    • Richard Kadrey の Sandman Slim
  • 訴状では、ChatGPTが原告らの出版著作物に含まれる 著作権管理情報 を再現しなかったとも主張している

Meta訴訟の焦点

  • Metaを相手取った別件訴訟では、原告らの書籍が LLaMA の訓練データセット内で利用可能だったとみている
  • LLaMAは、Metaが2月に公開した4つの オープンソースAIモデル として紹介されている
  • 訴状は、MetaのLLaMA論文に記載された訓練データセットの出所のうち ThePile を問題視している
  • ThePile は、EleutherAI が構成したデータセットとして言及されている

当事者の反応

  • Christopher Golden と Richard Kadrey は、訴訟に関するコメントを拒否した
  • Sarah Silverman 側は、報道時点までに応答していない

1件のコメント

 
GN⁺ 2023-07-10
Hacker Newsの意見
  • AIの作り手たちは、書籍の違法コピーサイトから取得した著作物を実際に使ったと明示的に言っているようなもの
    そのサイトから本を1冊ダウンロードしただけでも訴えられて侵害と判断され得るし、全部ダウンロードしていたなら数十億ドルの賠償責任が生じ得る
    ところがGoogleやFacebookのような会社は別のルールで動いているように見える。1人を殺せば殺人者だが、100万人を殺せば、それを問う質問が「引っかけ質問」になり、怒りで応じられる状況に似ている

    • 著作権のせいで、ほぼすべての子どもが、これまで書かれたほぼすべての本にアクセスできないという点を少し考えるべき
      著作権を一夜にしてなくすのはあまりに大きな衝撃かもしれないが、著作権の影響を小さくすればするほど、世界はずっと良くなり、より速く進歩するはず
      2023年には世界人口の過半数がスマートフォンを持っている。過半数の人々がデジタル化されたすべての本にアクセスでき、その本で子どもたちを育てられる世界を想像してみる価値はある
    • 機械学習モデルは昔から著作権データで学習されてきた
      ImageNetには著作権付き画像があふれているし、Clearviewは文字どおりインターネットから顔をスクレイピングした。もっと古い例もありそう
      米国の裁判所がこれをフェアユースと判断したことがあるのかは知らないが、まだなら最終的にはそう判断される可能性が高いと思う
    • 厳密に言えば、訴えられるのはダウンロードではなくアップロード
      再共有しない限り、Z-LibraryやBitTorrentから好きなだけダウンロードできる
      著作権資料を検索用にインデックス化することも安全、少なくともグレーゾーンではある
    • 「そのサイトから本をダウンロードすると訴えられて侵害と判断される」という話が、実際にどれほど頻繁に起きているのか気になる
      侵害通知を受けることはあるし、本当にひどくやればISPにサービスを止められることはあり得るが、単に何かをダウンロードしたという理由で実際に訴えられた例は聞いたことがない
    • AI界隈の人たちが、事実上著作権が存在しないかのように扱っているのはかなり気に入っている
      裁判所がLLMの重みとデータセットを「フェアユース」でも、何か別の馬鹿げた法的根拠でもいいから認めてくれることを強く望む
      Aaron Swartzは大人のような人だった
  • Books2データセットにSilvermanの本が入っている可能性は十分あるが、訴状にあるこの文は明らかに誤っているように見える
    第一に、モデルが学習中にその本の本文を一語も見ていなかったとしても、公開されている別の要約、たとえばWikipediaページを読んで要約する方法を学んだ可能性がある
    第二に、本の本文だけを見て、その本についての説明や要約を見ていないモデルが、実際にうまく要約できるのかも明らかではない
    これを確かめるために、Project Gutenbergにあり、訴状によればBooks1なのでChatGPTの学習データに含まれていたが、オンラインでの議論はほとんどない本を選んでみることができる。要約能力の源泉が本そのものを学習したことにあるなら、珍しい本でもSilvermanの本と同じくらい要約できるはず
    無作為にThe Ruby of Kishmoorを選んだが、これは2003年にProject Gutenbergに追加された本。GPT-3.5ベースのChatGPTは主要人物すら間違えた要約を幻覚し、GPT-4は物語を知らないとして試みることすら拒否した
    ChatGPTがSilvermanの本を要約できる理由が、その本自体が学習データにあったからだとするなら、なぜ別の本では同じことができないのか疑問

    • GPT-4のplaygroundはThe Ruby of Kishmoorを次のように要約した
      プロンプト: Project Gutenbergにある次の本を要約してほしい — The Ruby of Kishmoor
      応答では、Howard Pyleの短い冒険譚で、Jonathan Ruggが謎めいた見知らぬ人物に導かれてカリブ海へ行き、貴重な遺物であるRuby of Kishmoorを手に入れようとする内容だと説明している
      カリブ海に到着した後、そのルビーには重大な呪いがあることを知るが、好奇心と巨額の富の可能性のために危険を冒して宝石を追い求めるという。いくつもの試練の末、体系的な捜索ではなく純粋な幸運によってルビーを発見すると要約している
      旅の中で人間の強欲や、物質的利益のために人々がどこまで行くのかを探り、冒険・超自然的要素・勇気・道徳的省察が混ざり合って、物質的追求の真の価値を考え直させるとまとめている
      最後にはJonathanがルビーを持って脱出するが、大きな個人的代償を払い、人生と物質的追求の真の価値についての問いを残すという
    • 訴訟を始めるにあたり証拠開示の範囲を定めるには、事実関係は普通そのように陳述する
      真実だと信じるに足る理由があると主張しているのであって、これから訴訟を通じて直接確認できるようになる
    • 「訴状のこの文は明らかに虚偽」と言っているが、続く論拠は、それが事実ではないかもしれないという程度を示しているだけ
      私も別の記事を見てGPT-4にThe Ruby of Kishmoorの要約を頼み、2回尋ねると要約を提示した。その本を知らないので正確かどうかは判断できないが、少なくともそのテストは崩れたことになる
      ChatGPTが当然著作権を尊重しており、許可なく著作権資料をスキャンしていないはずだと仮定するのはかなりナイーブに見える。証拠開示が結論を出してくれるかもしれない。何をスキャンしたかのログは存在するはず
      より良い論理は、これはフェアユースだという方向だと思う
    • アクセシビリティの差かもしれない。Silvermanは聞いたことがあるが、Ruby of Kishmoorは聞いたことがない
      より多くの人が論じ、個人サイトなどに要約もより多く載せていたはず
    • もっともらしさは、却下申立てを乗り越えるための基準そのもの
      もっともらしければ証拠開示に進めるし、証拠開示は実際の事実により近づかせてくれる
  • この件はかなり興味深いです。Webブラウザさえあれば誰でもアクセスできる学習資料、たとえば個人ブログと、「違法に入手され、トレントシステムで大量に提供された」学習資料を区別しています。
    LLMの配布に関して、こうした区別が法的にどうして重要であるべきなのかはよく分かりません。ブログの著者たちも同意したわけではないからです。
    ただし、違法コピーのトレントを学習に使うことに法的問題があるのかは気になります。著作権資料で学習したLLMの配布はフェアユースとして認められるが、合法的に行うには販売されているコンテンツをまず購入しなければならない、と言える法的根拠はあるのでしょうか。たとえば、ブログ記事は無料でアクセスできるからよいが、Sarah Silvermanの本は無料公開されたことがなく、料金も払っていないので駄目だ、というような話です。
    あるいは裁判所は、何かがどのように作られたかにはまったく関心を払わないのでしょうか。フリーランスの記事で本の一節を引用しても、その本を買ったのか、図書館や友人から借りたことを証明できるのか、それともデジタルコピーを違法ダウンロードしたのか、とは聞かれません。

    • 結局、音楽のシンク権に似た新しいライセンス概念が出てくる気がします。おそらく「学習権」と呼べるでしょう。
      テキストを購入したのか違法コピーしたのかは重要ではないでしょう。今でも映画のサウンドトラックにオーディオトラックを混ぜ込むとき、そのトラックを買ったのか違法コピーしたのかが核心ではないのと似ています。
      芸能エージェンシーは人気クリエイターの学習権料を一括交渉し、クリエイターはLLM提供事業者がAPI料金項目に上乗せして支払う小さな収益の流れを受け取ることになるでしょう。
      独立クリエイターの学習権は今と同じようにむやみに侵害され、学習権侵害が疑われる、または立証された大手営利LLMは面目を失うか、訴訟を起こされるでしょう。独立系LLMは目立たないところにとどまる可能性が高いです。
    • フェアユース判断要素の一つであり、少し前まで最も重要だと一貫して考えられていた要素は、原著作物の商業市場への影響です。
      したがって、原著作物に実質的な商業市場がなければ、裁判所はフェアユースを認める可能性が高くなります。ただし、あるものが活発に販売されていないという事実だけで結論が出るわけではありません。
      オープンソースライセンスも無料で提供されていますが、控訴審裁判所で有効性が維持されました。
    • 著作権作品の私的複製は認められていますが、再配布は認められていません。
      これがどの程度まで再配布なのかは明確ではありません。ボタンを押すと原作を再生成するVCRのような機械と、このモデルの間に大きな違いがあるのかも曖昧です。
    • AIという観点は、誇張された流行を利用しているように見えます。
      「違法コピー」の著作権資料をダウンロードすることが違法なら、それが犯罪であり、残りはほとんど関係ありません。違法コピー映画を見たからといって、誰かにあらすじを話すことが違法になるわけではありません。
    • フェアユースを主張するには、その作品を合法的に保有していなければならない、と理解しています。弁護士ではありません。
      作品が合法的には販売を通じてしか入手できないなら、自分で合法的に購入したか、そのように購入した人から受け取ったコピーでなければなりません。たとえば贈り物として受け取った場合がそうです。
  • 同じ訴状を読んでいるのか分かりません。
    Metaの論文 https://arxiv.org/pdf/2302.13971.pdf には、学習データセットに2つの書籍コーパスを含めたと書かれています。一つはパブリックドメインの本を収めたGutenberg Projectで、もう一つはThe PileのBooks3セクションです。
    The Pileの論文 https://arxiv.org/abs/2101.00027 は、Books3をBibliotikのプライベートトラッカーの内容コピーから派生した書籍データセットだと説明しています。
    Shawn Presserのリンクは https://twitter.com/theshawwn/status/1320282149329784833 で、彼はBooks3を「all of bibliotik」、つまり196,640冊の本を通常の.txtにしたものだと説明しています。
    37GBのファイルをダウンロードする時間も容量もありませんが、そこにSilvermanの本が入っているなら、これは勝訴確実な案件ではないかと思います。
    MetaのLLaMAは、彼らが認めているように見える通り、違法コピーされた本で学習されたものです。

    • Silvermanの本はそこにあります。
      $ grep -i "Sarah Silverman" books3.list.txt の結果、325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt が出ます。
      ファイル一覧だけ見たい人向けのリンクもあります。一覧自体も大きなファイルです: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • 正しくもあり、そうでなくもあります。
      初期学習に、トラッカーが定義したコーパスのコピーを作る過程が必要だったのなら、その過程に著作権侵害行為があったという点はほぼ明白な案件です。
      しかし、Silvermanが書籍購入額、あるいは3倍損害賠償程度を超えてどのような救済を受けられるかは、結局のところモデル学習と著作権の関係という同じ争点にかかっています。
      ここには、学習前の資料の違法状態がその判断を変えるのか、という追加の論点も加わります。
    • 同じものを読んでいるようには思えません。どこかで突然Googleを持ち出しています。
  • この問題は、一部の人が考えているよりも大きくなりそう
    潜在的な著作権請求のないクリーンな学習データの市場が生まれるかもしれない。パブリックドメイン作品だけを使うような形
    そうなると、18世紀後半や19世紀初頭の作家のように話すのを見て、AIだと分かるようになるのだろうか?

    • 完全に新しい問題ではなく、検索エンジンでも似た問題があり、変形的利用と見なすこともできる
      ただし、著作権で保護されたテキスト全体を進んで再現するモデルには問題が生じ得るし、名誉毀損的な内容を幻覚するモデルのような新しい論点もある
      それでも、このジーニーを瓶に戻すのは難しそうだ。今後、多くの訴訟、アライメント作業、新しいタイプの悪用が同時に現れる可能性が高い
    • そういう市場ができてほしい。知的財産に対する学習ライセンスを販売する市場があるとよい
      自分の知的財産が学習セットに使われることを嫌がらない芸術家、作家、詩人にとって、小さいが実際の受動的収入源になり得る
      各クリエイターと個別に交渉するのは非現実的だが、メンバーの品質を保証できる出版社、ギャラリー、ギルド、労組のようなより大きな集団なら可能に見える。ライセンスを提供し、収益を全メンバーで分け合える
      LLMが同意や契約なしに、さらにはトレントサイトからまで、このデータを根こそぎ吸い上げるのは明らかに非倫理的だ。こうしたモデルは全員の利益になり得る
    • この問題が解決するまでは、クリーンな学習データはリスク軽減の手段として価値があるだろう
      解決した後は、完全に問題でなくなるか、はるかに分かりやすい費用対便益のトレードオフ問題になるだろう
      パブリックドメイン作品と米国政府刊行物の混合になるかもしれない。米国政府刊行物はカテゴリとして著作権の対象ではない
    • クリーンな管轄区域の市場もある。ニューラルネットワークの学習を著作権侵害と見なさない管轄区域のことだ
      日本はすでに自らをそのような管轄区域だと宣言している
    • 18・19世紀ではなく19・20世紀と言いたかったのだと思うが、それでもかなり笑えそうだ
  • 弁護士ではないが、これは侵害を立証する良い例には見えない
    本の詳細な要約は典型的な変形的利用のように聞こえる。特にSilvermanの場合、散文の芸術的要素を取り除き、本を「事実」に要約すればするほど、原作の直接の代替物にはなりにくくなる

    • 訴状にはかなり筋の良い論理がある。学習データの出所をたどると不法取得につながる
      不法取得された資料が商業事業に使われ、その事業がAIモデルだったという点は、おそらく副次的なことだ。事業をしながら不法取得資料を使うことはできない
    • 考えれば考えるほど、結果は「法」がAIを人間に近い存在と見るのか、「機械に近い存在」と見るのかに左右されるべきだし、実際に左右されそうだ
      人は読んで研究した後、別の成果物を出せる
      しかし「データを機械に食わせること」は、反対側からまったく同じものが出てこないとしても、明らかな侵害に見える
    • そうではないかもしれないが、主張の一つは興味深い。データセットの一部を不法取得したという主張だ
      その損害額はいくらになるのだろう? ハードカバーの小売価格くらいだろうか?
    • 適切にプロンプトを与えれば、LLMは本全体を逐語的に繰り返せるのだろうか?
    • 訴状は読んでいないが、OpenAIが盗まれた作品でデータを学習したため、フェアユースは適用されないという論理があり得る
  • LLMが学習対象全体の二次的著作物かどうかはさておき、この主張は非常に弱く見える
    作品自体が学習セットにまったく含まれていなかったとしても、その作品に関する複数の要約で学習したLLMは、自分でそのような要約を作り出せる
    一般に、あるものについて知識があるという事実は、それで学習した証拠ではない

    • 決定的な証拠ではないが、裁判所は事件を始め、新しい事実を発見するために決定的な証拠を求めるわけではない
      LLMの専門家とOpenAI側に、その出力が問題の著作権作品に由来している可能性が高いかを尋ねることはできる
      いずれにせよ「いや、本ではなく、他人の著作権のある要約から来たものだ」という論理なら、その要約を書いた人が代わりに著作権侵害で訴えるべきという意味ではないのか? OpenAIが「実は要約ではなく本全体だった」と言わない限り、そうなる
    • LLMの位置に人間を置くと、興味深いニュアンスが生まれる
      私たちは何千もの作品を読んできたが、だとすれば私たちが書くものすべてが派生物ということになるのだろうか?
  • より説得力のある証拠は、ChatGPTに要約ではなく本文の一部をそのまま出力させることだったはずだ
    自分で試したときは、2021年9月の知識カットオフ以降の特定の外部データベースや本にはアクセスできず、Sarah SilvermanのThe Bedwetterや他の特定テキストの逐語引用は提供できない、というように答えた
    ただし、その時点までの学習と知識に基づいてテキストを生成できるので、Sarah Silvermanや関連テーマについて質問してほしいと言っていた

    • この議論を見逃していたのかもしれない: https://news.ycombinator.com/item?id=36400053
      OpenAIは自社ソフトウェアが著作権資料を出力することを知っていて、急ごしらえのフィルターを付けたように見える
      だから今リクエストしたときに本を出力しないという事実は、AIがその大きな塊を記憶していない証拠ではない。単に安全フィルターがかかっているだけかもしれず、簡単な迂回方法が必要なだけかもしれない
    • 以前ChatGPTに**『指輪物語』の最初の段落**を出力させてみたが、最初の数語の後で止まった
      開発者たちがフィルタリングしているように見える
    • GPTはインターネット全体の非可逆圧縮JPEGだ。ニューラルネットワークの仕組み上、そこから逐語的なテキストを取り出すことは不可能
      エクサバイト規模のテキストデータをギガバイトサイズのニューラルネットワークにどうやって入れると思っているのか? そう、非可逆圧縮だ
  • 学習セットに書評や要約が多く含まれていて、そこから独自に合成した可能性のほうがずっと高いのでは?

    • 違法な書籍リポジトリが学習に使われたという文書化された痕跡がある
    • 実際には、学習用フォルダに本のPDFを大量に入れて、そのまま回した可能性のほうがはるかに高そうに見える
      これらのAI企業が、学習用に吸い上げるデータについて少しでも慎重になっているとは、ほとんど信じがたい
    • その要約はどこから来たのだろう? シャドウライブラリをスクレイピングした可能性のほうがずっと高いと思う。もちろん、それも立証するのはほぼ不可能に見える
      シャドウライブラリでしか入手できない本やテキストの要約を依頼してみれば、ある程度は試せるかもしれない
    • 書評や要約が学習セットにあったのなら、OpenAIのLLMはプロンプトに応じて入力テキストを生成するという点で、検索エンジンに近いのではないか?
  • Getty ImagesもStability AIを相手にAI訴訟を起こしたというのは、ちょっと笑える。因果応報か?
    Gettyが他人から盗むのはよくて、他人がGettyから盗むのはダメということなのか? この争いに利害関係はないが、こういう企業の偽善は本当にひどい

    • Gettyは誰から盗んでいるのか?