4 ポイント 投稿者 laeyoung 2025-09-06 | 1件のコメント | WhatsAppで共有
  • Anthropicが著者らとの訴訟について15億ドルでの和解に同意
  • 15億ドルは米国の著作権訴訟史上で最大規模の賠償金
  • Anthropicは50万人の著者に対し、作品1点あたり3,000ドルを支払う予定

1件のコメント

 
GN⁺ 2025-09-07
Hacker Newsの意見
  • archive.phで記事を見る

  • これはモデルのトレーニング自体が争点ではない、という点を明確にしておきたい
    トレーニング自体はフェアユースに当たるが、問題は書籍を無断で複製したこと、つまり海賊版利用であり、Anthropicはデータ収集の過程で誤ってこうしたことをしてしまった
    古本を買ってスキャンし、学習に使うのは問題ない
    Rainbows Endは多くの面で時代を先取りした小説だ

    • 古本を買ってスキャンしてトレーニングするのが問題ないという意見については、実際にそんなことをする会社はない気がする
      何十億ドルものVC資金がかかっているのに、誰がのんびり一冊ずつ本を買ってスキャンするのかという話だ
      みんな罰金を払う方を選ぶだろうし、その罰金額も抑止効果を持つにははるかに足りない
      Uberが最初にタクシー免許なしで事業を始め、その後は調達した資金で罰金とロビー活動をこなして危機を切り抜けたのと同じだ
      Anthropicも出版社ごとに個別にライセンス契約を結ぶより、DRMのないPDFやePUBを手当たり次第に投入する方がはるかに速く効率的だった

    • 今回は和解であって、判例でも違法性の認定でもない
      トレーニングがフェアユースだということも、スキャンが問題ないということも、今回確定したわけではない
      この争点は今後ほかの当事者が争っていくべき問題だ

    • Rainbows Endという小説が時代を予見していたという点には同意する
      読書好きにはとても良い本だし、著者のVernor Vingeは"singularity(特異点)"という用語を広めた人物でもある
      GoodreadsでRainbows Endの情報を見る

    • 古本を買って読むという発想自体がおかしいと思う
      すべての人には図書館にあるすべての本を自由に読む権利があるべきだと思う
      知識は提供されるためにこの世に存在するのであり、人々は積極的にアクセスできるべきだ

    • Aaron Swartzが、もしLibGenが当たり前になったこの時代を見たら何を思っただろうかと気になる

  • 和解条件の要約を共有

  1. 最低15億ドルの賠償基金を設け、該当分類に入る50万作品を基準に1作品あたり3,000ドルを支払う
    作品数が50万を超える場合は、追加作品ごとに3,000ドルずつ増える
  2. AnthropicはLibGen、PiLiMiから取得したデータセットを、法的保全要請とは無関係にすべて破棄する予定
  3. 2025年8月25日までの公式"Works List"に含まれる著作物についてのみ、過去の侵害責任が免除される
    今後発生する侵害や、生成AIの出力による侵害については、今回の和解では解消されない
  • 重要なのは、"法的判例"がまったく残っていないことだ
    類似訴訟が起きれば、すべてをまた最初から争わなければならない
    負けそうだと判断したときにだけ、こうした和解を選ぶことが多い
    GoogleがEpicとの訴訟で、裁判所の判断が出る前に不利な和解を急いだ事例に似ている

  • 和解は単なる補償問題ではなく、データセットの廃棄も含んでいる
    記事によれば、Anthropicは"その違法資料を実際には使用していなかった"と主張している
    もし生成AI企業のどこかがこうした海賊版データでトレーニングし、さらに商用化までしていたなら、業界全体が揺らぐ危険がある
    こうした事例が今後どれだけ出てくるのか気になる

  • こう計算すると、いっそすべての本を普通に買った方がずっと安いのではないかと思う

  • 著作物が50万件しかないというのは意外だ
    何百万冊もダウンロードしていたという印象があったからだ

  • 著者が自分で参加できるのか気になる

  • "1作品あたり3,000ドル"なら、著作権契約で本をライセンスする条件としてはかなり良いように思える

  • あれだけ多くの資金を集めたのは、結局出版社に渡すためだったのではないかという気がする
    投資家に対して"私たちは訴訟費用などの大きな支出に備えます"というようなピッチをしていた姿が想像できる

    • 記事によれば、Anthropicは最近さらに130億ドルを調達しており、創業以来の累計調達額は270億ドルを超えている
      巨額の賠償であっても、確保した投資額と比べれば小さい

    • 冗談のようだが、実際には優れた投資ピッチだと思う
      法的問題による潜在リスクを解消することは、会社の価値を高める
      特に法的不確実性が解消されることで、同業界への投資妙味が増す

    • 実際、こういうふうにシステムは動いているのだと思う
      あらゆる個別の機会や優位性は、既存資本の利益になるかどうかにかかっている
      金の動きにもっともらしい言い訳さえ付けば、資本の側からすれば細部は重要ではない
      金が動いたあとに、みんなが納得できる物語を作るだけだ
      今回の和解も、"トレーニングは問題ない、海賊版利用が問題だった"という、双方が満足できるナラティブを作るやり方だ
      AIトレーニング自体が違法だという判例が残るのを避けたかったのが、主な動機だったように見える

    • Anthropicは規制を避けつつ素早く実行する戦略を望んでいた
      誰にもそうするよう強制されたわけではない

  • 著者であれば、自分の作品が含まれているか確認するための資料と手順が案内されている
    LibGenデータセットで著者名検索する方法の紹介
    和解案の公式サイトで連絡先を登録

  • オープンソースAIの立場からすると残念さが大きい
    トレーニングのために海賊版資料を使うこともフェアユースであるべきだ
    そうでなければ、Anthropicのような資金に余裕のある大企業だけが出版社に巨額を支払ってAIを開発できることになり、何十億冊もの本を買って学習に使うような道はまったく不可能になる

    • これは単なる和解であって、判例でも違法性の認定でもない
      結局のところ、高額なエンジニアや何万台ものGPUに直接投資できる余裕があるのも大企業だけなのは事実だ
      実際には草の根のLLMコミュニティは、学習セットの適法性にそれほど敏感ではない気がする

    • フェアユースは、資料をどう入手したかではなく、"適法にアクセス"したあとで何をするかの基準だ
      適法にアクセスしていなければ、フェアユースの議論自体が成り立たない

    • この議論は、まるでモデル学習そのものが一種の権利であるという前提を置いているように見える

    • 欲しい本を全部買ってモデルに学習させたら、実際どれくらいかかるのか気になる

  • ひとつ思いついたのは、Webで公開するコンテンツを人間には無料で使わせつつ、AIクローラーの利用時には海賊版と見なして今回の件のように処罰できる方法があるのか、ということだ

    • 最初の質問については、"ログインの壁"の設置と契約への同意手続きで可能だろうが、実際の損害賠償額など具体的な契約条項は弁護士が確認すべきだ

    • 実のところ、この方式は勧めたくない
      ユーザースクリプトのような自動化ツールも侵害の疑いが生じ得るので問題だ

    • DMCA上の保護手段と見なされ得るCAPTCHAシステムを付ける方法もありそうだ
      同じコンテンツを有料APIとして提供することも可能だ

    • 法的にも技術的にも不可能だと思う

    • たぶん試みること自体はできるが、著作権にはさまざまな例外規定があり非常に複雑だ
      たとえば、"すべての利用はOK、ただし学術目的だけ禁止"のような条項を付けても、実際に大学が必ず従う義務があるとは限らない
      裁判所がすでにLLM学習をtransformative useだと判断している場合、"LLM学習だけ禁止"という条項を入れても、それを特別に強く執行する手段はない
      音楽家が"自分の音楽は丸ごと聴くのはよいが、サンプリングは禁止"と宣言しても効果がないのと同じだ
      著作権の目的は"学問および有益な芸術の促進"であり、学術的アクセスの確保が著者個人の統制より重視される
      教科書にも著作権があり、実際に学術的フェアユースの例外があるなら複製が自由であってもよさそうなのに、そうなっていない点も混乱を招く

  • 国際的な観点では、法的制裁や和解が各国でどのような効力を持つのか、他国でも新たな訴訟が可能なのか、追加制裁があり得るのかが気になる

  • 中国のAI業界にとっては大きな追い風に感じる
    西側企業はデータ収集や学習に多くの制約を受ける一方で、中国やその他の国のAIは、はるかに多く、しかも質の高いデータを活用できる立場にある