2 ポイント 投稿者 GN⁺ 2026-02-15 | 1件のコメント | WhatsAppで共有
  • 主要メディア各社は、AI学習用データの収集を防ぐために、Internet Archiveへのアクセスを遮断または制限している
  • The Guardian は、Internet ArchiveのAPIとWayback Machineから記事ページを除外し、一部のホームページ・トピックページのみを残している
  • The New York Times は2025年末からarchive.org_botをrobots.txtに追加し、クローリングを全面的に遮断した
  • Gannett(USA Today Co.) をはじめとする241のニュースサイトが、少なくとも1つ以上のInternet Archiveボットをブロックしており、多くはCommon Crawl・OpenAI・Google AIも合わせて遮断している
  • こうした措置は、AI企業による無断データ活用への対応であると同時に、デジタル記録の保存と情報アクセシビリティのバランス問題も浮き彫りにしている

主要メディアによるInternet Archiveアクセス制限

  • The Guardianは、AI企業がInternet Archiveを通じてコンテンツを収集する可能性を懸念し、アクセスを制限している
    • APIとWayback Machineの記事URLインターフェースから自社の記事ページを除外
    • 地域ホーム・トピックページなどは引き続きWayback Machineでアクセス可能
    • Robert Hahnは「AI企業は構造化データベースを好み、Internet ArchiveのAPIがその経路になり得る」と述べた
  • The Guardianは完全遮断はしておらず、Internet Archiveの情報民主化という使命を尊重していると説明している
    • ただし今後のボット管理ポリシー見直しの過程で、立場を再評価している

The New York TimesとFinancial Timesの対応

  • The New York Timesはarchive.org_botをrobots.txtに追加し、Internet Archiveのクローラーを「ハードブロック」した
    • 「Wayback MachineがAI企業を含む第三者にTimesのコンテンツを無制限に提供している」と説明している
  • Financial Timesは有料コンテンツ保護のため、OpenAI、Anthropic、Perplexity、Internet Archiveなど関連するすべてのボットを遮断している
    • FTの記事の大半は有料化されているため、Wayback Machineには公開記事のみが残る

RedditとInternet Archiveの対立

  • Redditは2025年8月、Internet Archiveのアクセスを遮断した
    • 理由は、AI企業がWayback Machineを通じてRedditのデータをスクレイピングした事例があったため
    • Redditは「プラットフォームポリシーに違反したAI企業の活動を防ぐための制限措置だ」と説明している
  • RedditはGoogleとAI学習用データのライセンス契約を締結したことがある

Internet Archiveの立場と対応

  • 創設者Brewster Kahleは、「出版社がInternet Archiveのような図書館を制限すれば、公共の歴史記録へのアクセスが減少する」と警告した
  • KahleはMastodonで、「一部のコレクションでは大量ダウンロードを不可能にし、レート制限・フィルタリング・Cloudflareのセキュリティサービスを利用している」と述べた
  • 2023年5月には、あるAI企業が大量リクエストでサーバーに過負荷をかけ、Internet Archiveが一時停止した事例があった
    • その後、その企業は謝罪と寄付を行った

データ分析:世界のニュースサイトにおける遮断状況

  • Nieman Labは、Ben Welshの1,167件のニュースサイトデータベースを分析し、Internet Archive関連の遮断状況を調査した
    • 241のニュースサイトが少なくとも1つのInternet Archiveボットを遮断
    • その87%はUSA Today Co.(Gannett) 所有メディアで、2025年にarchive.org_botとia_archiver-web.archive.orgをrobots.txtに追加した
    • 一部のGannettサイトでは、Wayback Machine上に「このURLは除外されています」というメッセージが表示される
  • Gannettは「無断データ収集を防ぐための新しいプロトコルを導入した」と述べ、2025年9月の1カ月だけで7,500万件のAIボットを遮断し、そのうち7,000万件がOpenAI由来だったと報告した
  • Group Le Monde傘下のLe Monde、Le Huffington Post など3サイトは、3つのInternet Archiveクローラーすべてを遮断している

AI関連クローラー遮断の拡大

  • Internet Archiveだけでなく、Common Crawl、OpenAI、Google AI など主要なAIクローラーもあわせて遮断される傾向にある
    • 241サイトのうち240サイトがCommon Crawlを、231サイトがOpenAI・Google AIボットを遮断
  • Common Crawlは、商用LLM開発との結びつきが強いとみなされている

インターネット保存と情報アクセスのバランス問題

  • Internet Archiveは、米国内で最も包括的なWeb保存プロジェクトであり、多くのニュース組織は独自の保存能力を備えていない
  • 2025年12月、PoynterとInternet Archiveは地域ニュース保存トレーニングプログラムを共同発表した
  • Hahnは「Internet Archiveは善意で運営されているが、善意が悪用される副作用が起きている」と述べた

1件のコメント

 
GN⁺ 2026-02-15
Hacker Newsのコメント
  • 独立したアーカイブを拒むような報道機関なら、そのニュースは信用できないと思う
    AIスクレイピングを許可するかどうかは別として、コンテンツは必ず外部で独立して保存できるべきだ
    • 自分も同意する。独立した記録は不可欠だ
    • 信頼できるニュースソースは一つもないように感じる。大半は意図されたアジェンダを押し出しており、今ではそれを隠そうともしない
  • この問題には**コンプライアンス(規制順守)**の側面がある
    SOC 2やHIPAAのような規制では、監査証跡(audit trail)と証拠保全が求められる
    ところが、セキュリティ文書やインシデント対応報告書がWebから消えると、監査証拠が途切れて企業が認証審査に落ちる事例を見たことがある
    結局、Webが保存不可能になっていくことは文化的損失を超えて
    運用リスク
    になっている
    • 例を探してみたが、最初の結果から404だった
      AWS Compliance Reportsページがまさにそうした事例だ
    • 大手金融機関でSOC監査を何度も受けたが、どの業務が「クリティカル」なのかを定義する過程で部門間の衝突が激しかった
      単なるログ整理作業ですら重要度を巡る議論が起きる
    • 結局、保険会社はこうした問題を避けるために文書の紙のコピー保管を求めるようになる気がする
      大きな損失事例が数件あれば現実になるだろう
    • Page Vaultのような企業は、すでにこうした問題を解決しようとして存在している
    • ただ、このコメント投稿者がAIツールのアカウントのように見えるという疑いもある
      最近のHNではこういうパターンのアカウントが増えていて心配だ
  • AI企業はInternet Archiveを一度クロールする代わりに、レジデンシャルプロキシ(residential proxy)を使って各サイトを繰り返しスクレイピングするようになる気がする
    結局しわ寄せを受けるのは、Web全体をスクレイプする資源を持たない一般ユーザーだ
    私はコンテンツが
    ハッシュベースで再ホスティング
    されるWebを夢見てきた — IPFSはそれを試みたが、残念ながら失敗した
    • 実際、AI企業は同じページを繰り返しスクレイピングしている。自分の個人サイトにも内容が変わっていないのにリクエストが来続ける
    • IPFSは、こうした構造を目指していたプロジェクトだった
    • ベトナムと韓国からのプロキシトラフィックが自分のサーバーを壊している。毎秒3500リクエストは耐えられない
    • すでにAI企業は感染した端末やアプリを通じたプロキシネットワークを使っている
    • こうしたプロキシは長くは続かないと思う。商業的圧力で減っていくだろう
      それでもCommon Crawlがあるのに、なぜAI企業が直接クロールを続けるのかは不思議だ
  • Brewsterによる歴史記録の保存への懸念は現実的だ
    別個のアーカイブがなければ、報道機関の記事も結局は消えていく運命にある
    たとえばWikipedia編集者がTimesの記事リンクを安定して確保できないなら、やがてWaPoの記事に置き換えられるだろう
    これこそ共有地の悲劇
  • 私はLinkwardenというオープンソースプロジェクトを運営している
    チームが外部サービスに依存せずURLを安定して保存できるよう支援するツールだ
    HTMLスナップショット、スクリーンショット、PDF、リーダービューなど複数形式で保存する
    クラウドホスティング版(linkwarden.app)とセルフホスティング版GitHubリポジトリ)がある
    • Linkwardenは素晴らしい。SingleFile拡張機能と併用すれば、スクレイパーがブロックされるページも保存できる
      ただ、UXの面では「既読/アーカイブ済み」表示機能があるとよい
    • archive.orgとの統合方法が気になる。単にURLを送っているのか、それともクライアントで取得したデータを直接保存しているのか知りたい
  • この問題は科学分野にも影響している
    メタデータの誤りが増え、Google Scholarのような学術検索エンジンも崩れつつある
    一部の大手学術出版社もAIボットをブロックしているようだ
    • しかもGoogle自体の検索品質も壊れてしまった。ますます情報の視野が狭まっている感覚がある
    • 公的資金で研究された科学成果にAIブロックでアクセスできなくするのは、公共の利益の侵害
    • それでもPubMedと正確な検索演算子のおかげで、今のところは持ちこたえている
  • The GuardianやNYTのような報道機関はInternet ArchiveとCommon Crawlをブロックしている
    ニュースサイト全体の20%が両方を遮断している
    例として、realtor.comの記事はIAで429エラーとなりアーカイブできない
    • IAは要請があればアーカイブを停止するが、悪質なスクレイパーはそうしない
      結局、善意の側だけが止められ、悪い側だけが残ることになる
    • The Guardianが本当にIAをブロックしているのか根拠を求める声がある。自分で確認したところ問題なく動いていた
    • ブラウザ拡張ベースのクラウドソーシングアーカイブがあればいいと思う
      ただし個人情報を含むページをどう除外するかが課題だ
  • 第一印象としては、ニュース企業は著作権問題のためにAIを口実にしているように見える
    • Webサイト運営者として、うちのトラフィックの90%以上はボットとスパム
      AI企業がプロキシを使い始めてから、対象外の国をすべて遮断した
      インターネットは病んだ生態系になってしまった
  • 報道機関が学術・ジャーナリズム研究用の非公開アーカイブにはより好意的なのか気になる
    企業のモデル学習用には絶対に提供しないという条件なら可能かもしれない
    • すでに図書館向けに有料ライセンスのアーカイブを提供している。乱用防止は可能だ
    • ほとんどの報道機関はコンテンツ配信契約(syndication)を結んでいる
      問題は、LLMが価値連鎖を吸収しながら
      見返りの価値を返さない
      ことだ
    • 内部的にはアーカイブを持っているだろうが、問題は公開アクセス性
  • クラウドソーシング型ブラウザプラグインで、ユーザーが見たページを自動的にアーカイブへ送るというアイデアを考えた
    ユーザーが許可したドメインだけを記録し、オープンソースならプライバシーの不安も減る
    自動クロールではなく、実際のユーザーの一部の閲覧だけをアップロードする方式だ
    • SingleFileはこうしたアーカイブをかなりうまくこなす
      ただしサイト側がユーザー識別情報を埋め込めるため、個人情報漏えいのリスクがある
    • もう一つの問題は、ユーザーが送ったデータが改ざんされていないと保証しにくいことだ
      歴史的記録として使うには信頼性の確保が難しい