Anthropic、Claudeの学習用に中古本数百万冊を裁断してスキャンし、700万冊の海賊版をダウンロード

(businessinsider.com)

6 ポイント投稿者 GN⁺ 2025-07-08 | 1件のコメント | WhatsAppで共有

AnthropicがAIチャットボットClaudeを学習させるため、中古書数百万冊を裁断してスキャンしたと裁判官が明らかにした
これとは別に、700万冊を超える海賊版書籍をダウンロードしていた事実も判決文で言及された
裁判官は、購入した書籍をデジタル化して学習用データとして使う行為はフェアユースに当たると判断した
一方で、海賊版データの活用はフェアユースとは認められず、著作権侵害であると強調した
今回の判決は、AIモデル学習時の著作権適用に関する重要な先例と評価されている

概要

米カリフォルニア北部地区連邦地方裁判所のWilliam Alsup判事は、AnthropicがAIチャットボット Claudeの学習のため、データソースとして書籍、ソーシャルメディア投稿、動画など多様な資料を使用したと分析した
Anthropicは数百万ドルを投じて大量の中古書を購入した後、製本を外してページを裁断し、デジタルファイルへ変換した
変換されたファイルは社内のリサーチライブラリに保存され、原本の書籍は処分された
また、AmazonとAlphabetの支援を受けるAnthropicは、700万冊を超える海賊版書籍を別途ダウンロードし、Claudeモデルの学習に利用した

書籍活用と海賊版利用の過程

Anthropicの共同創業者Ben Mannは、2021年にLibrary Genesisから少なくとも500万冊の書籍を違法にダウンロードしたことを認めた
2022年にはPirate Library Mirrorから少なくとも200万冊を追加でダウンロードした
共同創業者兼CEOのDario Amodeiは、「法的・慣行的・ビジネス上の煩雑さを避けるため、本を盗む(steal)ほうをより好んだ」と述べた
2023年には3人の作家が、自身の書籍の海賊版を無断で使用したとしてAnthropicに対し集団訴訟を起こした

裁判官の判断: 書籍のフェアユースと海賊版の区別

ポイント 1: フェアユースを認定
- 裁判官は、Anthropicによる大規模な書籍のデジタル化とAI学習データとしての利用を「極めて変容的(exceedingly transformative)」と判断した
- 判決文では「AnthropicのLLMは既存文書を単純に複製または代替しようとするのではなく、まったく異なるものを創造するために学習する」と述べられている
- 会社が自ら購入した書籍をデジタル化してライブラリに保管する行為はフェアユースに当たる
ポイント 2: 海賊版の利用はフェアユースではない
- 裁判官は、Anthropicが海賊版書籍をデータとして活用した点を厳しく批判した
- 「Anthropicには中央ライブラリで海賊版書籍を使用する権利はなく、恒久的かつ汎用的なライブラリの構築それ自体はフェアユースを正当化しない」と明記した

影響と業界動向

今回の判決は、著作権で保護された書籍をAIモデルの学習データに活用することがフェアユースに含まれるかどうかに関する最初期の事例の1つである
最近ではOpenAIや複数の生成AI企業に対し、クリエイター、アーティスト、報道機関などが類似の訴訟を相次いで提起している
AI業界はAIモデルの学習はフェアユースの範囲内だと主張する一方、クリエイター側は自らの権利が侵害されたとの立場を取っている
最近、DisneyはAI画像生成企業Midjourneyに対し、自社キャラクターの著作権侵害訴訟を提起した

結論

Anthropicの書籍デジタル化とフェアユースに関する部分は、AI研究と著作権解釈における転換点となる判例と評価されている
一方で、海賊版の活用については明確な著作権侵害と位置づけられ、今後のAI学習データ調達基準にとって重要な参照点となる

1件のコメント

GN⁺ 2025-07-08

Hacker Newsの意見

記事原文リンク
裁判官の重要な判断の要約: Anthropicが著作権のある書籍をAI学習に利用したことは、「極めて変形的」であることを理由にフェアユースに当たると判断。Anthropicは、自分たちが購入した実物の本を中央図書館にデジタル形式で保管したにすぎず、新たな複製物を作成したり再配布したりしていないと主張。「図書館を海賊版化する行為」は明白な著作権侵害。興味深いのは、内部利用のために図書館をスキャン・デジタル化することは可能だと認め、AI学習用途もフェアユースと判断した点。
- 一方で裁判官が別の論点について言及した部分も重要。Anthropicが海賊版の本を中央図書館のように使ったことはフェアユースではないと明確に線引きした。つまり、自ら本を購入して物理的にスキャンしAI学習に利用するのはフェアユースだが、海賊版を使うのはフェアユースではない
- この判決は新しいものではないと思う。10年以上前にGoogleが、書籍をデジタル変換することは許容されるという先例をすでに作ったと見ている
- 私の知る限りでは、Metaが関係する後続裁判でVince Chhabria判事がフェアユースの主張に異を唱えたことがある関連リンク（法律家ではない）
- ここで「毒樹の果実（fruit of the poisonous tree）」の原則も適用されるのか気になる
- 以前Aaron Swartzをほぼ同じことで終身刑にしようとしていたことを思うと、時代の変化は本当に大きいと感じる
大規模な著作権侵害に関与した個人の実際の処罰事例参考記事
- むしろ Aaron Swartz事件に言及するかと思った
- 上の記事をクリックしてみたら、実質的には数百万ドル相当の海賊版ソフトウェアを「販売」した事業者の話だった。単に一人で使ってみるのではなく、明らかに盗んだものを他人に転売して利益を得た事例。変形的利用や個人的使用とはまったく別のケース
- Anthropicはその資料を販売してはいない。個人が本を読んで要約したり部分引用したりしても、刑務所送りにはならないだろう。それでもAutodeskに抵抗したとして7年刑なら、強盗罪よりも重いという事実が法曹界の現実をよく示しているように思う
- 単に海賊版ソフトウェアを不正コピー・販売した事例と、Anthropicのように書籍を利用した事例は大きく異なると思う。Anthropicはどの本の「複製物」も作って流通させたことはない
- 法を破るつもりなら先に法人を作って責任を移せ、という冗談。資本さえ十分なら法違反もカバーできるという現実への風刺
Spotifyなどの企業も初期には違法な資料をもとに事業を育てた経緯がある。昔からベータテストに「海賊版」mp3ファイルが使われたという噂があり、実際に「Scene」タグ付きのトラックがダウンロードされたという体験談もある関連記事
- Crunchyrollも元は海賊版アニメのストリーミングサイトだったが、正式ライセンスを取得して合法化した。2006年開始、2008年VC投資、2009年ライセンス締結 Forbes記事, Venturebeat記事
- 実際、Spotifyだけでなく大半のテックジャイアントは法のグレーゾーンや規制無視、つまり市場を「ディスラプト」しながら金を稼いできた。法的制裁より不当利得のほうがはるかに大きいからだ。Amazon以後、投資資金を背景に「公正競争」を無視して価格ダンピングする行為も増えたと思う。米国のビッグテック企業は、ほとんど法を無力化しながら成長してきたようなものだ
- 「正式に取得していない音源」と「著作権のない音源」は別概念。ストリーミングライセンスが確保されていても元ファイルがない場合がある
- Spotify初期のUIがLimewireの1:1コピーに近かった点にも言及
- Google Musicにもユーザーが直接mp3などをアップロードする方式があったが、当時はファイルの違法性はGoogleの責任ではないという主張だった。Amazonにも似たサービスの前例がある参考記事
AIの未来を作っているという人たちが、こういう形で倫理を捨てている状況に疑問を感じる。中国は何十年も偽造品問題で制裁を受けてきたのだから、Anthropicも違法行為に関与したのなら輸出規制を受けても正当だと思う
- 中国の偽造品問題に対して、私たちが実際に何をしたのか疑問だ。処罰の大半は現地で摘発された偽造品の輸入を止める程度にすぎず、実質的な処罰は行われていない。むしろ米国企業が長年生産まで外注して、IP侵害の環境を作ってきた
- 本当に非倫理的なのは、本すら買わない企業のほう。実際、経済的・法的パワーがあればあるほど簡単に逃げ切れるのが現実だ
- 社会に蔓延するダブルスタンダードと権力への免罪符を指摘。飲酒運転、暴力、脱税などを例に挙げつつ、社会全体が権力・富・影響力によって揺らぐことを強調。出版社が私の本をパクれば訴えられるが、AI企業に盗まれると大手法律事務所相手で訴訟すら難しい。現実世界で平等は幻想で、うまくいっている側が常に有利な立場にある
- Facebookのスローガンのように、「壊しながら素早く進め」が美徳の時代
- 本に含まれた情報を活用することが、なぜ非倫理的なのか疑問だ。Anthropicはその本を再販売したわけではない。本の情報それ自体は著作権で保護されない。引用は常に可能だ
Anthropic共同創業者Ben Mannが2021年にLibrary Genesisから海賊版の本を数百万冊ダウンロードしたという主張。盗みは盗みだ。ダブルスタンダードはやめようという意見
- 大半の海賊行為は単なる「個人的消費」が目的だが、海賊版を通じて「営利追求」するのはレベルが違う
- 単なる盗みではなく、市場支配を狙って標的を定めて盗み、倫理的に行動した企業を淘汰する行為は、多くの作家にさらに大きな被害をもたらす。こういうものは「組織犯罪」に近いと思う
- 「盗みは盗み」という言葉は単純すぎる。商品を持ち出したとしても、状況によって処罰は千差万別だ。細部が重要
- まず「窃盗」の定義を正確にすべきだ
- 「コピーは窃盗とは違う」。複製して持っていっても元の人は自分の複製物を引き続き所有している。複製を「窃盗」と呼ぶなら、ほかの過激な主張も成り立ってしまうという反論
大規模AIデータ学習の現実として、海賊版と罰金のほうが、本を数百万冊いちいち買って処理するよりはるかに安い。もちろん正当化はできないが、もし自分の立場なら効率性のために同じ選択をするかもしれないという乖離
- この論理の問題は、何年もかけて本を書いた多くの教師や著者が、大企業に著作権侵害されても訴訟すら難しいことだ。結果的に著者が執筆をあきらめるようになり、すでにそうした現象が起きているという主張
- 故意の侵害には、著作権1件あたり最大15万ドルの罰金。もしすべての侵害資料について判決が出れば、Anthropicの時価総額を超える額になる可能性がある。実際にはこうした超法規的な判断は適用されず、2000年代初頭のNapster運営の若者たちとは法の物差しが違う
- 「海賊版は懲役ものでは？」という疑問。DVDのFBI警告に照らせば、原則論としては重罪
- 実際、記事によればAnthropicが大量の本を正式に購入したうえで学習に利用した事例も多い。関連訴訟のすべての本には正式購入本も含まれる。中古本は大量購入が安い
- 法的リスクを「ゼロ」にしたいなら、出版社に直接連絡してAI学習用ライセンスを交渉するのが本来の筋。NetflixやSpotifyなど、すべてのメディア企業がそうしている。なぜAI企業にだけこの原則を別の見方で適用するのか疑問だ
もし私が本を所有しているなら、自分のコンピュータにスキャンするのは合法であるべきだと思う。AI企業の立場も気の毒に見える。著作権の規定がAIを狙ってますます厳しくなっている感じがする。ある本の内容からアイデアを得て創作したとしても、その本の著作権に対して返済義務があるとは思わない
- 記事内容をきちんと読むべきだ。本文でも、自分の本をスキャンしてAI学習に使えると明記されている。むしろこの判決はAI企業にとって大きな追い風だ。逆に解釈するのが理解できない
- フェアユース議論で見落とされがちなのは、その利用が著作権者の市場に実質的な悪影響を与えるかどうかだ。個人がある本を読んで学び、著者と競合するとしても、その影響を証明するのは難しい。しかしAIが大量学習して公開したモデルによる著者収益の減少は、比較的明確に立証できるかもしれない。AIが著作物をもとに著者を代替しうるなら、フェアユースの趣旨には合致しない
- 著作権法には論理的に一貫した構造がないように感じる。情報の自由やイノベーション奨励という当初の目的も曖昧だ。法解釈は裁判官の主観に左右される。結局、法の現実の論理は「金」であり、著作権の力は巨大資本が維持している。もし今やそれが資本の邪魔になるなら、これまでのDRMや著作権の論理がどう変わるのかを見る番だ
- 規模が大きくなると、すべてが違って機能する。個人の権利や規範をメガシステムにそのまま適用することはできず、社会的にもこうした区別が必要だ。金を持つ側はこの問題を無視できるようにしてきたし、「規模」に対する規制不足がこの混乱の根本原因だ
- 要約: 裁判官は、Claude学習用に書籍を利用したことはフェアユースだが、「海賊版」の利用は違法と判断
最近YouTubeがダウンロード遮断を強化したのも、競合AI企業がデータセット収集するのを防ぐためかもしれないと思う
他人を非難するのは簡単だが、現在のスレッドの最上位コメントも結局はBusiness Insiderから「盗んだ」コンテンツへのリンクだ。誰もが公正ではないという現実
- どうしてBusiness Insiderから「盗まれた」コンテンツなのか気になる。公式Webサイトでも同じ記事を見られるし、ブラウザキャッシュやアーカイブも本質的には変わらない
- これが今日のスレッド最高のコメント。ここで論理的曲芸を見るのが興味深いと思う

Anthropic、Claudeの学習用に中古本数百万冊を裁断してスキャンし、700万冊の海賊版をダウンロード

概要

書籍活用と海賊版利用の過程

裁判官の判断: 書籍のフェアユースと海賊版の区別

影響と業界動向

結論

関連記事

1件のコメント

Hacker Newsの意見