自分のためのウェブスクレイピング、しかし他人のためではない

(blog.ericgoldman.org)

1 ポイント投稿者 GN⁺ 2023-08-26 | 1件のコメント | WhatsAppで共有

公開ウェブデータが生成AIとプラットフォーム競争の中核資源になるにつれ、誰がデータを取得してよいのかが法・契約・市場支配力の問題として大きくなっている
LinkedIn・Facebookのようなプラットフォームが保護しようとするデータは、たいていユーザー生成コンテンツであり、プラットフォーム自身が直接的な財産権を主張しにくい領域にある
スクレイピング抑止の手段は、初期の動産侵害と2000年代のCFAAから、hiQ Labs v. LinkedIn以後は契約違反請求中心へと移っている
Twitter/XのBright Data訴訟のように、最近の紛争は利用規約を前面に出し、契約違反、契約妨害、不当利得を問う形へと絞られている
企業は自社サイトのデータは「proprietary」だとして遮断しながら、他社の公開データは取得しようとすることがあり、生成AIの学習データ事件がこの矛盾の次の試金石となる

スクレイピングはデータアクセスの問題

ウェブスクレイピングはインターネット上で公開された知識を大規模に取得する方法であり、誰がどの目的でデータにアクセスし利用できるのかが核心的な争点である
インターネット上の一部データは著作権、商標権、その他の知的財産権で保護されうるが、多くのデータについては、保護しようとする主体が知的財産権を容易には主張しにくい
ソーシャルメディア企業はスクレイピング訴訟を積極的に提起してきたが、LinkedInやFacebookが守ろうとするコンテンツはおおむねユーザー生成コンテンツである
- 利用規約はプラットフォームにユーザーコンテンツ利用のライセンスを与えるが、通常、著作権上の利害関係はユーザー側にある
- プラットフォームは規約上では当該データに対する財産権を否定しつつ、実際にはそのデータを自らの財産のように扱っている

スクレイピングを防ぐ法的手段の変遷

初期インターネットでは、動産侵害理論がスクレイピング抑止の手段として使われていた
- 望まれない大量のデータ要求が、私有の有体財産であるコンピュータサーバーを侵害するという論理である
- 損害要素が必要であり、1990年代後半から2000年代初頭には、未熟なスクレイパーがウェブサイトに負荷をかけたり停止させたりすることがあった
技術環境の変化とともに、この理論の説得力は弱まった
- サーバー容量が大幅に増加した
- 多くのスクレイパーはリクエスト量を制限し、ホストサーバーでは検知されにくいか、影響がごく小さい水準で動作する
- サーバーや有体財産への実際の損害を立証することはまれになった
2000年代初頭から2017年までは、Computer Fraud and Abuse Act(CFAA) が主要な抑止手段だった
- CFAAは「保護されたコンピュータ」への無権限アクセスを禁じている
- スクレイピングでは、停止要求書やアンチボット措置によって権限が撤回された後のアクセスが「無権限」かどうかが核心だった

hiQ Labs v. LinkedInの複雑な帰結

2001年から2017年までは、権限撤回後もアクセスを続ければCFAA責任が生じるという単純な解釈が一般的だった
2017年の**hiQ Labs, Inc. v. LinkedIn Corp.**事件は、公開されたLinkedInデータへのアクセスについて、スクレイパーであるhiQ Labs側の権利を認める方向で注目を集めた
- Ninth Circuitは、LinkedInのような企業が、自ら所有せず、公に提供し、自身も収集・利用しているデータについて、収集・利用主体を恣意的に決められるなら、情報独占が生じる危険があると見た
しかしこの結果は、ピュロスの勝利に近かった
- その後、地裁は「LinkedInのUser Agreementは、スクレイピングとスクレイピングされたデータの無断使用を明確に禁じている」と判断した
- LinkedInはこれを根拠に、hiQ Labsに対する永久差止命令と損害賠償を得た
以後、スクレイピングを防ぐ主たる手段はCFAAよりも契約違反請求になった

契約法が事実上のデータ財産権として機能する

最近、Twitter/X Corp.はBright Dataを含む複数のスクレイパーを相手取って訴訟を提起した
- Bright Dataは世界最大級のウェブスクレイピング企業とされる
- TwitterがBright Dataに対して提起した請求は、契約違反、契約妨害、不当利得の3つだった
10年前のスクレイピング訴訟では、原告が10～15個の法的請求を並べ、複数の理論を試すことが一般的だったが、最近では裁判所が契約違反請求を執行するとの確信が強まっている
この構造では、オンライン利用規約を通じて、ホストウェブサイトがデータに対する権利を望む形で定義できる
Mark Lemleyの2006年Minnesota Law Review論文 Terms of Use は、財産法から契約法へ移行すると、ウェブサイト所有者の権利範囲を法ではなくサイト所有者自身が決めることになると論じている
裁判所は、一般的なデータ利用ルールや既存の知的財産権ルールの代わりに、オンライン契約がサイトデータに対する暫定的な知的財産権のように機能する体制を認めてきた
- ただし、著作権保護と完全に同一の形で構成すると問題になりうる

企業の二重的なスクレイピング姿勢

契約違反を財産権のように使う法的体制には、一貫性の要求がない
- 企業は自社サイトでは何が「proprietary」なのかを強く主張できる
- 同時に他社サイトでは、何が自由に取得できるデータなのかを主張できる
Microsoftは最近、一般利用規約を更新し、AIサービスに対するスクレイピング、ハーベスティング、類似の抽出方法を禁止した
同じ時期にMicrosoftの関連会社OpenAIは、インターネットをスクレイピングするよう設計されたGPTbotを公開した
OpenAIの利用規約もスクレイピングを禁じている
Microsoft子会社のLinkedInは、米国で最も注目されたウェブスクレイピング訴訟の1つで勝利を宣言し、元競合企業が公開・非公開データを恒久的にスクレイピングまたはアクセスできないようにする永久差止命令を得た
Metaも公開コンテンツをスクレイピングして販売した企業を相手に訴訟を起こしたが、過去には同じスクレイパーに公開データのスクレイピング費用を支払った事例がある

裁判所と次の試金石

こうした二重的態度は企業だけの問題ではなく、裁判所がそのようにできる構造を認めてきたからこそ可能だという批判がある
批判の対象には、Register.com v. Verio, Inc.、Southwest Airlines関連訴訟を可能にしたNorthern District of Texas、hiQ Labs事件でCFAAの仮差止命令と契約違反の永久差止命令との不一致を説明しなかった裁判所が含まれる
オンラインの附合契約を通じて私企業が知的財産権を発明できるようにすれば、本来は公益の問題であるべきデータアクセス判断が、私的な意思決定者に左右されうる
契約はオンライン契約を含め州法上の問題であるため、単純な解決策を想定するのは難しい
可能な解決策として、より包括的な著作権プリエンプション原則の解釈が挙げられるが、現在の著作権プリエンプション法理は巡回区ごとの分裂で混乱しており、Supreme Courtはこれを解決する機会を最近退けた
現在の法状況とは無関係に、次の試金石は生成AIの学習データ事件であり、この領域の法的不整合は今後も論争を生みうる

1件のコメント

GN⁺ 2023-08-26

Hacker News の意見

HiQ 対 LinkedIn の件がどこで止まっているのか混乱している。私の理解では、LinkedIn が HiQ を訴え、第9巡回区控訴裁判所が HiQ 側に立ち、LinkedIn は最高裁まで行ったが、最高裁は Van Buren を引用して破棄差し戻しし、第9巡回区控訴裁判所が再検討して同じ結論を出した。
その後、LinkedIn は HiQ の遮断禁止の仮処分解除を勝ち取り、2022年11月には入り混じった判決の末、最終的に非公開の和解で終わったようだ。皆この件をよく引用するが、細部はあまり扱わない。
2022年11月の判決要約を読むと、HiQ が人々にログインさせたことで利用規約が適用された点が争点のようで、結局、裁判所は HiQ が LinkedIn の利用規約に違反したという LinkedIn 側の主張を認めたように見える。
https://www.natlawreview.com/article/court-finds-hiq-breache...
- 読み直すと、流れはこう整理するのが正しそうだ。hiQ はカリフォルニア北部地区連邦地方裁判所で LinkedIn を相手に差止命令による救済を求め、CFAA 請求で勝ち、LinkedIn が第9巡回区控訴裁判所に控訴したが、そこでも hiQ が CFAA の争点で勝った。
  hiQ の独占禁止法上の請求は却下申立ての段階で敗れ、その頃に hiQ は廃業したが、資金力のある支援者が訴訟費用を払い続けた。LinkedIn は契約違反など別の請求を続けて却下申立てで勝ち、最高裁は Van Buren 後に事件を第9巡回区控訴裁判所へ差し戻し、第9巡回区控訴裁判所は CFAA の争点で再び hiQ 側に立った。
  その後、仮処分は解除され、hiQ は略式判決でほぼ全面的に敗訴し、最終的に白旗を上げて LinkedIn の要求の大半を受け入れる恒久的差止命令に同意し、LinkedIn に50万ドルを支払った。
- 2022年11月の入り混じった判決というより、hiQ Labs の大敗だった。裁判所が出した恒久的差止命令を読めばよい。
- 入り混じった判決の法的先例というのが何なのか分からない。そんなことが可能だとも知らなかった。
規約型の「契約」が増え、現代社会でそれに同意せずに生きることがほぼ不可能になるにつれて、この問題は日に日に悪化している。新しい SSD を一つ買うだけでも規約への同意が付いてくるレベルだ。
法律はますます重要でなくなり、私たちはますます巨大企業が一方的に押し付ける片面的な契約に支配されている。
- いい表現だと思う。Web ページの見方は二つあると思う。一つはWeb ページは広告看板だという見方で、もう一つはWeb ページはパンフレットだという見方だ。
  広告看板なら、自分が気に入らない部分を塗りつぶすこと、つまり広告ブロッカーを使うことは道徳的に間違った行為になる。Web ページを所有する側は制御を望むのでこの見方を好むし、一般ユーザーのように Web ページの見た目を変えられない側も、おおむねそう受け止める。
  パンフレットなら、私はそれを切り抜き、好きなように並べ替える自由がある。技術的にはこちらの方がより正しい。Web ページは私に届けられた数ビットの情報にすぎず、自分のコンピューターを自分が制御している限り、そのビットを切り抜いて自分の望む形で見ることができる。
  Amazon.com が Amazon の Web ページを含んでおり、Amazon がそのページを所有していると言うことはできる。だが私は、Amazon 所有ではない自分の機器や他人の機器でしか Amazon.com を見てこなかった。Amazon.com は広告看板の上に存在しているのではなく、他人が所有する電子機器を必要としている。ならば、その電子機器の所有者にはどんな権利があるのか。私の画面のピクセルは、どの瞬間からあなたの保護領域になるのか。
- こうした契約が物理世界にも現れるのが、最もばかげた例だ。実際に店に入ると、契約条件を受け入れたものとみなすという看板を掲げている店がある。
  契約を読むには携帯電話で QR コードをスキャンしろ、という具合だ。公園でも似たようなものを見たことがあり、入場すると公園を訴えない、または掲示された規則に従うという法的合意に縛られる、という内容だった。
- これに対抗するには、顧客側にも自分の規約型契約が必要だ。会社が私を顧客として受け入れたら、会社自身の契約は無効になる、という内容でよい。
  顧客組合や保険のような組織に毎月お金を払い、法務チームに後ろ盾になってもらえばよい。この契約も会社の契約と同じくらい執行可能、あるいは不可能なはずなので、均衡が取れる。そうすれば、会社が細かい文字で何を書いていようと読む必要がなくなる。
  会社が顧客の契約を受け入れない、または自社の規約を迂回させてくれないなら、そのまま去ればよい。取引は成立せず、別の会社が顧客を獲得することになる。
- 現代の契約法は私有財産権を継続的に侵害している。強制仲裁条項はそれをさらに悪化させる。
偽善のように見える感じは、これを協力や平等な共同体ではなく競争として見れば、ある程度薄れる。実際にも競争だ。サッカーチームに「君が私にゴールを決めようとするのは構わないが、私がゴールを決めようとしたら急にボールを止めるのか？」とは言わない
当然、彼らは「Webスクレイピングはリソースを使うからやめろ」と言いながら、裏ではWebスクレイピングを続けるだろう
明らかに悪い行動ではあるが、偽善的な行動ではないと思う。絶えず争う非道徳的な企業が、自分たちの利益を最大化し、他者の利益を最小化しようとする姿と完全に一致しているからだ
- 興味深い比較だが、正しい枠組みなのかは分からない。スクレイピングを技術的に難しくすることは、ゴールを決めようとする試みに当たるので、世の中全体にはあまり良くなくても偽善ではないかもしれない
  しかし特定の行動を法的手段で止めようとするのは、自分は同じプレーをしながら、審判に特定のプレーの種類を禁止してほしいと求めることに近い。スポーツでもこういうことはよくあるが、一般には偽善に見える
- 「Webスクレイピングはリソースを使うからやめろ」というのは、公開インターネットに何かを投稿するときに予想すべきコストだ。人々はそれにアクセスする。大衆に見てもらうために置いたものに人々がアクセスすると不満を言う権利はない
  もちろんスクレイパーも迷惑なことはできる。怠慢にサーバーを延々と叩いたり、誤って同じコンテンツを繰り返しダウンロードしたりすることはある。だがそのために訴訟が必要なわけではない。サービス拒否攻撃のレベルなら、既存の法律でもすでに扱える
  一部の企業が全員の状況を悪くし、自分たちだけを豊かにするなら、そうした企業に法人格という特権を与え続けるべきか考え直す必要がある。私たちの負担で欲しいものを持っていく寄生虫や略奪者を許す必要はない
- 偽善は、自分が口にする理想を善意で信じているが実際には守れない場合にだけ成立するものではない。サッカーチームの比喩でぼかしても、他人には基準を強制しながら自分には同じ基準を適用しないという事実は変わらない
  彼らが非道徳的に悪意からそうしているとしても、なお偽善だ。むしろその場合はいっそうそうだ。重要なのはどんな方針を掲げるかであり、本気で信じていないからといって免除されるわけではない
- 「非道徳的な企業はもともとそういうものだ」という論理の問題は、企業の存在が許される理由が、社会全体に純便益をもたらすという前提にあることだ。その前提が消えれば、社会が企業を飢えたラヴクラフト的悪夢とみなし、火と蒸気船で消し去らない理由もなくなる
- サッカーでは公正な試合を作るために、ルールが非常に多く調整されてきた。会社法でも、そうした調整をもう少し行うべきだと思う
これがなぜ偽善を示すのか分からない。公開アクセス可能なWebをクロールすることと、認証されたWebアプリケーションやAPIをスクレイピングすることの間には大きな違いがある。合法的な検索エンジンは公開Webのクロールを常に行っている
- 偽善はここから来ている。OpenAIなどは公開Webをスクレイピングしてモデルを学習・構築し、そのモデルでサブスクリプションを売って収益を上げているが、学習データの作成者には何も還元されない
  それでいて、自分たちがしてきたことを他人には禁じている
  検索エンジンとの比較では違う。検索エンジンは公開Webを取得して検索インデックスを作り、そのインデックスで検索結果と広告を提供する。重要なのは、検索結果がおおむね取得元のWebサイトへ人々を送り、そのサイトに収益を得る機会を与える点だ
- MicrosoftがOpenAIに投資したのは事実だが、OpenAIを支配しているわけではない
2つの問題が見える。Webスクレイピングは明らかにビジネスモデルの問題であり、その一部は規模の問題でもある
コンテンツを無料で提供し、広告で維持しようとするなら、他人が広告を見ずにコンテンツの価値を持っていく瞬間、そのモデルは崩れ始める。広告ブロッカー、Google検索結果に含まれる回答、Stack Overflowクローン、ChatGPTのようなものが例だ
もう1つの問題は規模だが、これをどう解決するのかは分からない。政府が公園でシャベルを使ってもよいという友好的な政策を作るときは、キャンパーのような人に役立つだろうと考えるかもしれない。しかしプロの露天掘りチームが現れれば話は変わる
良い情報を無料で提供し、本の販売や専門サービスで収益を上げるサイトなら、十分な生計になり得る。回答がGoogleの回答ボックスに入っても、より複雑な内容や分析は依然として訪問して読まなければならず、そこでフォロワーが生まれる可能性がある
しかしChatGPTのようなものが私の文章を「読み」、価値の80%を出典も分からない形で配れるなら終わりだ。ビジネスモデルはもはや機能しない。良い情報を無料で共有するあらゆるモデルが失敗する。今アーティストたちが直面している問題と同じだ
何らかの禁止なしに直す方法は分からない。しかしすべての国がこれを執行しない限り、最小公分母に合わせるしかなく、結局すべてのコンテンツを閉じることになる。Web検索も、Googleの回答も、ChatGPTも駄目だ。robots.txtに「スクレイピングしないでください」と書いても機能しないだろう
- 興味深いのは、これが本質的に従来の著作権論議とほとんど同じだという点だ。違いは、本の著者が通常、自分の個人Webサイトで本を無料配布しないということだけだ
  著作権は、コピーが非常に簡単で安いものを販売しようとする著者のビジネスモデルを守ろうとする試みだ。Webスクレイピングを法的に制限しようとする試みは、コピーが簡単で安いものを無料で提供しつつ、必ず作成者のところへ直接来て無料コピーを受け取らせようとする作成者のビジネスモデルを守ろうとする試みだ
- その通り。だからスクレイピングは誰にとっても無制限かつ合法であるべきだ。インターネットでアクセス可能なあらゆる情報は、加工しても合法であるべきだ
  したがって、私たちがGPTサービスを使って独自モデルを学習させたり、公開アクセス可能なものなら何でもスクレイピングしたりすることも可能であるべきだ。私たちの唯一の防御策は、どんな汎用大規模言語モデルよりもうまくデータを加工する競合サービスだ。解決策はほとんど常に規制ではなく公正な競争だ
- ペイウォールがこれを解決するとは思えない。スクレイパーには有料アカウント1つで十分だ。新しい記事が出るたびに「読む」程度なら、速度制限も実質的に難しい
  データを得た後は配布できる。そのまま掲載することが著作権侵害なら、AIの背後に隠して曖昧にする方法で十分に回避されるだろう
無料の貸出図書館やWeb検索インデックスが存在しておらず、今日新たに作ろうとしたなら、訴訟で完全に叩き潰されていただろう
こうした事件が主に依拠している根拠は、契約合意に対する曖昧な理解だと思う。私の考えは二つある。EULAは企業が署名させるために作った文書ではないし、そもそもEULAはクズだと思っている
完全に一方的で、その大半は、実際に誰かが争うためのリソースを持っていれば違法か、法廷では持ちこたえられないものだろう
EULAを読んで理解したことを保証する責任は、それを作った企業側にあるべきで、サイトにアクセスする前にその人がEULAをすべて理解していたことを証明できなければ、執行できないようにすべきだと思う。EULAはビジネス契約ではない。企業が製品の使用に付けようとしている、ある種の企業版の似非法律だ
世の中のどんな製品が、使い方についての長大なルール一覧を同梱し、破れば訴えられる可能性があるなどと言うのか？
だからこれが「企業対企業のスクレイピング」に戻ると、ウェブに載せていて、そのコンテンツに本当の著作権がない、つまり自分で作ったものではないなら、それを「盗用」から守る権利はない
もちろん、John Deereが顧客に自分のトラクターを修理させないようにしていることは知っているが、それもたわごとだ
- こうしたオンライン合意は、企業が防御のためのリソースを多く持っている場合でも、しばしば執行可能である
リンクされていたRegister.com対Verio事件は興味深かった。裁判所は約款型契約について、一般に知られているよりも微妙な判断を下したのだと思う
この事件でVerioは、Registerが禁じた目的のためにRegisterのAPIを呼び出した。ところがRegisterは、制限を宣言する「契約」文言を、呼び出しが終わった後で初めて提示していた。おそらくAPIレスポンスの一部だったのだろう
裁判所は実際に、これは遅すぎると見た。API呼び出しの条件を知る唯一の方法がそのAPIを呼び出すことなら、それはシュリンクラップ契約であり、条件は無効だということだ
ただし裁判所は、この判断を最初のAPI呼び出しにだけ適用した。Verioには常識を期待できる従業員がおり、最初の呼び出し以後は文言を読んで制限を知る機会があったからだ。したがって、その後のすべてのAPI呼び出しでは、Verioの従業員がRegisterが明示的に禁じたことをしていると知りながら行ったため、裁判所はこれを契約違反と判断した
重要なのは、裁判所が、契約を成立させるには個人が契約条件を知っていなければならないという原則を放棄しなかった点だ。この事件は実際には、条件を知りながら知らないふりをする状況を退けたものに近い
[1] https://en.m.wikipedia.org/wiki/Register.com_v._Verio
先週議論されたAllen Instituteの事例が良い例だ
https://news.ycombinator.com/item?id=37181415
彼らはパブリックドメイン資料をスクレイピングして作ったデータセットを「公開」しながら、人々がそれをどのように使えるかを制限するライセンスを付けていた
「彼らが守ろうとしているコンテンツは彼らのものではなく、ユーザーのものだ」という言い方は、ある程度だけ正しい。Facebookはコンテンツはユーザーに属すると言っている。そうしておけば、違法コンテンツがあるときに自分たちに責任はないと説明しやすいからだ
しかしユーザーも、Facebookに対して「Facebookに投稿した、またはFacebookに関連して投稿したすべての知的財産コンテンツを使用できる、非独占的、譲渡可能、サブライセンス可能、ロイヤリティフリー、全世界対象のライセンス」を付与することに同意している
例えば、ユーザーが自分のコンテンツを削除しても、Facebookはなおそれを使用し、友人に見せることができる。だから「ある程度」だと思う
- それはコンテンツが誰に属するかを変えるものではない。単にFacebookに一部の権利を与えるだけだ。実際、「永久」や「取消不能」といった表現がなければ、削除後も使い続けられるとか、権利付与を撤回できないという意味にはならない
- ライセンスは所有権ではない。いずれにせよ、記事のその部分は文脈説明にすぎず、ここで説明した内容は議論された訴訟や判決の法的根拠ではない。なぜ財産法が使われなかったのかを説明する部分だ
- 掲示された標識を読んだか？「私有地の外の道路を歩行禁止」と書いてあった
- ユーザーが自分のコンテンツを削除してもFacebookが使い続け、友人に見せられるという話は正しくないように思う。Facebookにプラットフォーム上の自分のデータを削除してほしいと依頼したのに1か月以内に削除しなければ、FacebookはGDPR違反になり、おそらくCCPAなどにも違反することになるだろう

自分のためのウェブスクレイピング、しかし他人のためではない

スクレイピングはデータアクセスの問題

スクレイピングを防ぐ法的手段の変遷

hiQ Labs v. LinkedInの複雑な帰結

契約法が事実上のデータ財産権として機能する

企業の二重的なスクレイピング姿勢

裁判所と次の試金石

関連記事

1件のコメント

Hacker News の意見