- 主要メディア各社は、AI学習用データの収集を防ぐために、Internet Archiveへのアクセスを遮断または制限している
- The Guardian は、Internet ArchiveのAPIとWayback Machineから記事ページを除外し、一部のホームページ・トピックページのみを残している
- The New York Times は2025年末からarchive.org_botをrobots.txtに追加し、クローリングを全面的に遮断した
- Gannett(USA Today Co.) をはじめとする241のニュースサイトが、少なくとも1つ以上のInternet Archiveボットをブロックしており、多くはCommon Crawl・OpenAI・Google AIも合わせて遮断している
- こうした措置は、AI企業による無断データ活用への対応であると同時に、デジタル記録の保存と情報アクセシビリティのバランス問題も浮き彫りにしている
主要メディアによるInternet Archiveアクセス制限
- The Guardianは、AI企業がInternet Archiveを通じてコンテンツを収集する可能性を懸念し、アクセスを制限している
- APIとWayback Machineの記事URLインターフェースから自社の記事ページを除外
- 地域ホーム・トピックページなどは引き続きWayback Machineでアクセス可能
- Robert Hahnは「AI企業は構造化データベースを好み、Internet ArchiveのAPIがその経路になり得る」と述べた
- The Guardianは完全遮断はしておらず、Internet Archiveの情報民主化という使命を尊重していると説明している
- ただし今後のボット管理ポリシー見直しの過程で、立場を再評価している
The New York TimesとFinancial Timesの対応
- The New York Timesはarchive.org_botをrobots.txtに追加し、Internet Archiveのクローラーを「ハードブロック」した
- 「Wayback MachineがAI企業を含む第三者にTimesのコンテンツを無制限に提供している」と説明している
- Financial Timesは有料コンテンツ保護のため、OpenAI、Anthropic、Perplexity、Internet Archiveなど関連するすべてのボットを遮断している
- FTの記事の大半は有料化されているため、Wayback Machineには公開記事のみが残る
RedditとInternet Archiveの対立
- Redditは2025年8月、Internet Archiveのアクセスを遮断した
- 理由は、AI企業がWayback Machineを通じてRedditのデータをスクレイピングした事例があったため
- Redditは「プラットフォームポリシーに違反したAI企業の活動を防ぐための制限措置だ」と説明している
- RedditはGoogleとAI学習用データのライセンス契約を締結したことがある
Internet Archiveの立場と対応
- 創設者Brewster Kahleは、「出版社がInternet Archiveのような図書館を制限すれば、公共の歴史記録へのアクセスが減少する」と警告した
- KahleはMastodonで、「一部のコレクションでは大量ダウンロードを不可能にし、レート制限・フィルタリング・Cloudflareのセキュリティサービスを利用している」と述べた
- 2023年5月には、あるAI企業が大量リクエストでサーバーに過負荷をかけ、Internet Archiveが一時停止した事例があった
データ分析:世界のニュースサイトにおける遮断状況
- Nieman Labは、Ben Welshの1,167件のニュースサイトデータベースを分析し、Internet Archive関連の遮断状況を調査した
- 241のニュースサイトが少なくとも1つのInternet Archiveボットを遮断
- その87%はUSA Today Co.(Gannett) 所有メディアで、2025年にarchive.org_botとia_archiver-web.archive.orgをrobots.txtに追加した
- 一部のGannettサイトでは、Wayback Machine上に「このURLは除外されています」というメッセージが表示される
- Gannettは「無断データ収集を防ぐための新しいプロトコルを導入した」と述べ、2025年9月の1カ月だけで7,500万件のAIボットを遮断し、そのうち7,000万件がOpenAI由来だったと報告した
- Group Le Monde傘下のLe Monde、Le Huffington Post など3サイトは、3つのInternet Archiveクローラーすべてを遮断している
AI関連クローラー遮断の拡大
- Internet Archiveだけでなく、Common Crawl、OpenAI、Google AI など主要なAIクローラーもあわせて遮断される傾向にある
- 241サイトのうち240サイトがCommon Crawlを、231サイトがOpenAI・Google AIボットを遮断
- Common Crawlは、商用LLM開発との結びつきが強いとみなされている
インターネット保存と情報アクセスのバランス問題
- Internet Archiveは、米国内で最も包括的なWeb保存プロジェクトであり、多くのニュース組織は独自の保存能力を備えていない
- 2025年12月、PoynterとInternet Archiveは地域ニュース保存トレーニングプログラムを共同発表した
- Hahnは「Internet Archiveは善意で運営されているが、善意が悪用される副作用が起きている」と述べた
1件のコメント
Hacker Newsのコメント
AIスクレイピングを許可するかどうかは別として、コンテンツは必ず外部で独立して保存できるべきだ
SOC 2やHIPAAのような規制では、監査証跡(audit trail)と証拠保全が求められる
ところが、セキュリティ文書やインシデント対応報告書がWebから消えると、監査証拠が途切れて企業が認証審査に落ちる事例を見たことがある
結局、Webが保存不可能になっていくことは文化的損失を超えて運用リスクになっている
AWS Compliance Reportsページがまさにそうした事例だ
単なるログ整理作業ですら重要度を巡る議論が起きる
大きな損失事例が数件あれば現実になるだろう
最近のHNではこういうパターンのアカウントが増えていて心配だ
結局しわ寄せを受けるのは、Web全体をスクレイプする資源を持たない一般ユーザーだ
私はコンテンツがハッシュベースで再ホスティングされるWebを夢見てきた — IPFSはそれを試みたが、残念ながら失敗した
それでもCommon Crawlがあるのに、なぜAI企業が直接クロールを続けるのかは不思議だ
別個のアーカイブがなければ、報道機関の記事も結局は消えていく運命にある
たとえばWikipedia編集者がTimesの記事リンクを安定して確保できないなら、やがてWaPoの記事に置き換えられるだろう
これこそ共有地の悲劇だ
チームが外部サービスに依存せずURLを安定して保存できるよう支援するツールだ
HTMLスナップショット、スクリーンショット、PDF、リーダービューなど複数形式で保存する
クラウドホスティング版(linkwarden.app)とセルフホスティング版(GitHubリポジトリ)がある
ただ、UXの面では「既読/アーカイブ済み」表示機能があるとよい
メタデータの誤りが増え、Google Scholarのような学術検索エンジンも崩れつつある
一部の大手学術出版社もAIボットをブロックしているようだ
ニュースサイト全体の20%が両方を遮断している
例として、realtor.comの記事はIAで429エラーとなりアーカイブできない
結局、善意の側だけが止められ、悪い側だけが残ることになる
ただし個人情報を含むページをどう除外するかが課題だ
AI企業がプロキシを使い始めてから、対象外の国をすべて遮断した
インターネットは病んだ生態系になってしまった
企業のモデル学習用には絶対に提供しないという条件なら可能かもしれない
問題は、LLMが価値連鎖を吸収しながら見返りの価値を返さないことだ
ユーザーが許可したドメインだけを記録し、オープンソースならプライバシーの不安も減る
自動クロールではなく、実際のユーザーの一部の閲覧だけをアップロードする方式だ
ただしサイト側がユーザー識別情報を埋め込めるため、個人情報漏えいのリスクがある
歴史的記録として使うには信頼性の確保が難しい