- 1990年代半ばからWebと新聞を保存してきたインターネットアーカイブは、Wayback Machineを通じて1兆件を超えるWebページを保存している
- 最近、ニューヨーク・タイムズやガーディアンなど主要メディアが、AIスクレイピングへの懸念からアーカイブのクローリングを遮断し始めている
- このような措置は、Webの歴史的記録の断絶を招き、記事の修正・削除の前後を確認できる唯一の記録が失われる危険がある
- AI学習をめぐる法的紛争とは別に、非営利の保存機関を遮断することは公益を損なうと指摘されている
- 検索とWebアーカイブはすでにフェアユースとして法的な正当性が確立された領域であり、これを遮断すれば将来の研究者がWebの歴史記録を失うことになる
インターネットアーカイブの遮断はAIを止められないが、Webの歴史記録を消し去ってしまう
- インターネットアーカイブ(Internet Archive) は1990年代半ばからWebと新聞を保存してきた世界最大のデジタル図書館であり、Wayback Machineを通じて1兆件を超えるWebページを保存している
- ここ数か月の間に、ニューヨーク・タイムズ(The New York Times) がAIコンテンツのスクレイピングへの懸念を理由にアーカイブのクローリングを遮断し始め、The Guardian など他の報道機関にもそれに続く動きが見られる
- このような遮断は単なる技術的制限ではなく、歴史的記録の断絶を引き起こす
- インターネットアーカイブは、記事の修正・削除の前後の変化を確認できる唯一の記録になることが多い
- 報道機関がアクセスを止めれば、数十年にわたって蓄積されたWeb記録が失われる危険がある
- AI学習をめぐる法的紛争は進行中だが、非営利の保存機関を遮断するのは誤った対応だと指摘されている
- インターネットアーカイブは商用AIシステムを開発しておらず、歴史保存という公益目的を担っている
- AIへのアクセスを制御しようとする過程で、図書館の記録保存機能まで損なう結果を招きかねない
アーカイブと検索の合法性
- 検索可能にする行為はフェアユース(fair use) として長年にわたり法的に認められてきた
- 裁判所は、検索インデックスを構築するために原資料を複製することは不可避だと判断している
- Googleが書籍全体を複製して検索データベースを作成した事例でも、変形的目的(transformative purpose) として認められた
- インターネットアーカイブも同じ原則に基づいて運営されている
- 物理的な図書館が新聞を保存するように、アーカイブはWebの歴史記録を保存している
- 研究者や記者が日々これを活用しており、ウィキペディアだけでも249言語の260万件のニュース記事がアーカイブにリンクしている
- 数多くのブロガー、研究者、記者が安定的で信頼できる情報源として依存している
-
検索エンジンを保護する法的原則は、アーカイブや図書館にも同様に適用されるべき
- たとえ裁判所がAI学習に制限を課したとしても、検索とWebアーカイブの合法性はすでに確立されている
歴史記録保存の危機
- インターネットアーカイブは約30年にわたりWebの歴史記録を維持してきた
- 主要メディアがこれを遮断し始めれば、将来の研究者が膨大な記録を失う可能性が高い
- AI学習に関する法的論争は法廷で解決されるべきだが、公共記録を犠牲にすることは深刻で取り返しのつかない誤りだと警告されている
1件のコメント
Hacker Newsの意見
サイト運営者として、攻撃的なAIクローラーと戦っている
自分のブロックルールが Internet Archive まで止めてしまっていないか心配だ
Facebook は robots.txt を無視し、複数の IP にリクエストを分散して crawl delay を回避している
そのため nginx では Facebook 専用のルールを別に設けている
今のところ JA3 ハッシュのブロックが最も効果的だった
ただ、TCP フィンガープリンティングのために hugin-net を nginx で包むラッパーがあればと思う
Rust が分からないので、LLM に頼むのも怖い
ただしこの方式には race condition の問題がある。最初の接続では JA4 ハッシュがなく、AI クローラーは IP ごとに一度しかリクエストしないので、2回目のリクエストを止める機会がない
彼らは公式ブログ記事で、「ウェブアーカイブの未来は robots.txt への依存を減らす方向に進む」と述べている
別の団体である Archiveteam も robots.txt を無視しているという
最近の大規模アーカイブ団体は、サイト運営者の立場をほとんど考慮していないようだ
そうすれば Internet Archive のクローラーだけを許可できそうだ
もはや AI スクレイパーを完全には止められないと認めた人たちが、どう考えているのか気になる
人間のブラウザと LLM エージェントの区別が消える日は近い
彼らは実際の GUI セッションを開き、ブラウザでページを巡回し、OS レベルでスナップショットを取ってコンテンツを復元できる
結局、公開ウェブでアクセスを防ぐという概念そのものが時代遅れになりそうだ
だとすれば、個々のホストの負担を減らす方法は何だろうか?
信頼できる中央アーカイブ機関が生まれるのか、それとも LLM の「悪い振る舞い」を罰する仕組みが出てくるのか?
ブラウザがこれをサポートすれば、CDN の効率性を中央集権なしで得られる
もしかすると CDN がデータを直接販売するモデルのほうが効率的なのかもしれない
その時には継続的なスクレイピング需要も減るはずだ
基本的なエンジニアリング感覚と会計の概念が忘れられているように思える
報道機関は、自分たちのコンテンツが AI の発展に与えた影響を過大評価している
彼らが存在しなかったとしても、LLM の品質に大きな違いはなかっただろう
結局は報道記事のような多様なテキストが必要だ
AI 企業が同意なしにそれを使うのを防ぐ戦略には妥当性がある
私たちは今、放火犯を罰しようとして図書館を燃やしているようなものだ
放火犯はすでに立ち去っている
だから archive.is が作られた
その創設者を追跡して処罰しようとするより、有用なプロジェクトとして支援すべきではないか?
archive.org はサイト所有者の削除要請を受け入れるので、古いドメインを買えば過去の記録を消すこともできる
ユーザーを攻撃に巻き込んだという点で、称賛されるべき人物ではない
以前スパム対策システムを作っていた者として、今後はサイト接続にも**「タクシー免許証」のような認証体系が生まれる気がする
たとえば Internet Archive が署名付き HTTPS リクエストを送れば、サイト側はそれが本物だと確認できる
これはオープンなインターネットの精神**には反するが、信頼できるクローラーを見分ける方法は必要だ
こうした情報をもとに自動ブロックの判断を行っている
すでに Amazon からのリクエストをデフォルトでブロックする方針をブログに記している
ニューヨーク・タイムズはひどいと思う。だからこそ未来のために必ず保存されるべきだ
各メディアは自分のイデオロギーに合う文章しか載せない
EFF は AI に対して生ぬるい
AI がインターネットと雇用を壊しているのに、強硬な立場を取らない
スポンサー一覧を見ると企業スポンサーが多く、自由を掲げる団体としての信頼性が落ちる
OSI や EFF のような団体は、すでに企業に取り込まれており、有害ですらある
Internet Archive に分散型の住宅用 IP クローラープログラムがあるなら、喜んで参加したい
ただし改ざん防止メカニズムは必要だ
肥料とディーゼルを一緒に売っているなら、農業向けサプライヤーだと推定するのは合理的だ
しかし、農家ではない相手にトラック単位で販売しているなら、疑うのも当然だ