6 ポイント 投稿者 GN⁺ 2026-03-22 | 1件のコメント | WhatsAppで共有
  • 1990年代半ばからWebと新聞を保存してきたインターネットアーカイブは、Wayback Machineを通じて1兆件を超えるWebページを保存している
  • 最近、ニューヨーク・タイムズやガーディアンなど主要メディアが、AIスクレイピングへの懸念からアーカイブのクローリングを遮断し始めている
  • このような措置は、Webの歴史的記録の断絶を招き、記事の修正・削除の前後を確認できる唯一の記録が失われる危険がある
  • AI学習をめぐる法的紛争とは別に、非営利の保存機関を遮断することは公益を損なうと指摘されている
  • 検索とWebアーカイブはすでにフェアユースとして法的な正当性が確立された領域であり、これを遮断すれば将来の研究者がWebの歴史記録を失うことになる

インターネットアーカイブの遮断はAIを止められないが、Webの歴史記録を消し去ってしまう

  • インターネットアーカイブ(Internet Archive) は1990年代半ばからWebと新聞を保存してきた世界最大のデジタル図書館であり、Wayback Machineを通じて1兆件を超えるWebページを保存している
  • ここ数か月の間に、ニューヨーク・タイムズ(The New York Times) がAIコンテンツのスクレイピングへの懸念を理由にアーカイブのクローリングを遮断し始め、The Guardian など他の報道機関にもそれに続く動きが見られる
  • このような遮断は単なる技術的制限ではなく、歴史的記録の断絶を引き起こす
    • インターネットアーカイブは、記事の修正・削除の前後の変化を確認できる唯一の記録になることが多い
    • 報道機関がアクセスを止めれば、数十年にわたって蓄積されたWeb記録が失われる危険がある
  • AI学習をめぐる法的紛争は進行中だが、非営利の保存機関を遮断するのは誤った対応だと指摘されている
    • インターネットアーカイブは商用AIシステムを開発しておらず、歴史保存という公益目的を担っている
    • AIへのアクセスを制御しようとする過程で、図書館の記録保存機能まで損なう結果を招きかねない

アーカイブと検索の合法性

  • 検索可能にする行為はフェアユース(fair use) として長年にわたり法的に認められてきた
    • 裁判所は、検索インデックスを構築するために原資料を複製することは不可避だと判断している
    • Googleが書籍全体を複製して検索データベースを作成した事例でも、変形的目的(transformative purpose) として認められた
  • インターネットアーカイブも同じ原則に基づいて運営されている
    • 物理的な図書館が新聞を保存するように、アーカイブはWebの歴史記録を保存している
    • 研究者や記者が日々これを活用しており、ウィキペディアだけでも249言語の260万件のニュース記事がアーカイブにリンクしている
    • 数多くのブロガー、研究者、記者が安定的で信頼できる情報源として依存している
  • 検索エンジンを保護する法的原則は、アーカイブや図書館にも同様に適用されるべき

    • たとえ裁判所がAI学習に制限を課したとしても、検索とWebアーカイブの合法性はすでに確立されている

歴史記録保存の危機

  • インターネットアーカイブは約30年にわたりWebの歴史記録を維持してきた
  • 主要メディアがこれを遮断し始めれば、将来の研究者が膨大な記録を失う可能性が高い
  • AI学習に関する法的論争は法廷で解決されるべきだが、公共記録を犠牲にすることは深刻で取り返しのつかない誤りだと警告されている

1件のコメント

 
GN⁺ 2026-03-22
Hacker Newsの意見
  • サイト運営者として、攻撃的なAIクローラーと戦っている
    自分のブロックルールが Internet Archive まで止めてしまっていないか心配だ
    Facebook は robots.txt を無視し、複数の IP にリクエストを分散して crawl delay を回避している
    そのため nginx では Facebook 専用のルールを別に設けている
    今のところ JA3 ハッシュのブロックが最も効果的だった
    ただ、TCP フィンガープリンティングのために hugin-net を nginx で包むラッパーがあればと思う
    Rust が分からないので、LLM に頼むのも怖い
    ただしこの方式には race condition の問題がある。最初の接続では JA4 ハッシュがなく、AI クローラーは IP ごとに一度しかリクエストしないので、2回目のリクエストを止める機会がない

    • Internet Archive も robots.txt に従わない
      彼らは公式ブログ記事で、「ウェブアーカイブの未来は robots.txt への依存を減らす方向に進む」と述べている
      別の団体である Archiveteam も robots.txt を無視しているという
      最近の大規模アーカイブ団体は、サイト運営者の立場をほとんど考慮していないようだ
    • JA3 のランダム化や偽装のような回避手法は、検知を簡単にすり抜ける
    • ホワイトリストキーで署名されたリクエストだけを通すボットブロック回避メカニズムが可能なのか気になる
      そうすれば Internet Archive のクローラーだけを許可できそうだ
  • もはや AI スクレイパーを完全には止められないと認めた人たちが、どう考えているのか気になる
    人間のブラウザと LLM エージェントの区別が消える日は近い
    彼らは実際の GUI セッションを開き、ブラウザでページを巡回し、OS レベルでスナップショットを取ってコンテンツを復元できる
    結局、公開ウェブでアクセスを防ぐという概念そのものが時代遅れになりそうだ
    だとすれば、個々のホストの負担を減らす方法は何だろうか?
    信頼できる中央アーカイブ機関が生まれるのか、それとも LLM の「悪い振る舞い」を罰する仕組みが出てくるのか?

    • インターネット法には実質的な執行力がほとんどないことは、すでに学んでいるはずだ
    • コンテンツハッシュを提供し、実データは IPFS や BitTorrent のような場所から取ってくるようにすれば、サイト負荷を減らせる
      ブラウザがこれをサポートすれば、CDN の効率性を中央集権なしで得られる
    • そもそも公開ウェブに掲載しなければ、スクレイピングを心配する必要はなくなる
      もしかすると CDN がデータを直接販売するモデルのほうが効率的なのかもしれない
    • 今は何千もの AI 企業がウェブ全体をさらっているが、AI バブルがはじければ、結局いくつかしか残らないだろう
      その時には継続的なスクレイピング需要も減るはずだ
    • 本当の問題はトラフィック負荷と帯域コスト
      基本的なエンジニアリング感覚と会計の概念が忘れられているように思える
  • 報道機関は、自分たちのコンテンツが AI の発展に与えた影響を過大評価している
    彼らが存在しなかったとしても、LLM の品質に大きな違いはなかっただろう

    • Wikipedia、Reddit、論文だけでは限界がある
      結局は報道記事のような多様なテキストが必要だ
    • ウェブが AI 生成物であふれるほど、人間が書いたテキストの価値は高まる
      AI 企業が同意なしにそれを使うのを防ぐ戦略には妥当性がある
  • 私たちは今、放火犯を罰しようとして図書館を燃やしているようなものだ
    放火犯はすでに立ち去っている

    • だが実際には、図書館の来訪者の90%が放火犯なのかもしれない
  • だから archive.is が作られた
    その創設者を追跡して処罰しようとするより、有用なプロジェクトとして支援すべきではないか?

    • 同意する。archive.is が消えれば archive.org が独占になる
      archive.org はサイト所有者の削除要請を受け入れるので、古いドメインを買えば過去の記録を消すこともできる
    • だが archive.is の創設者には、過去に記者への DDoS 攻撃を行った前歴がある
      ユーザーを攻撃に巻き込んだという点で、称賛されるべき人物ではない
  • 以前スパム対策システムを作っていた者として、今後はサイト接続にも**「タクシー免許証」のような認証体系が生まれる気がする
    たとえば Internet Archive が署名付き HTTPS リクエストを送れば、サイト側はそれが本物だと確認できる
    これは
    オープンなインターネットの精神**には反するが、信頼できるクローラーを見分ける方法は必要だ

    • 私は、人間のように見えないクローラーに対して次を求めている
      • 逆引き DNS が存在し、そのドメインに行動ポリシーページがあること
      • IP ベースの TXT レコードで、誰が、いつ、どれくらいの頻度でアクセスするかを明記すること
        こうした情報をもとに自動ブロックの判断を行っている
        すでに Amazon からのリクエストをデフォルトでブロックする方針をブログに記している
  • ニューヨーク・タイムズはひどいと思う。だからこそ未来のために必ず保存されるべき

    • すべての報道機関のオピニオン記事は、結局は宣伝物だ
      各メディアは自分のイデオロギーに合う文章しか載せない
    • なぜそんなにひどいと思うのか気になる。私は読まない
  • EFF は AI に対して生ぬるい
    AI がインターネットと雇用を壊しているのに、強硬な立場を取らない
    スポンサー一覧を見ると企業スポンサーが多く、自由を掲げる団体としての信頼性が落ちる
    OSI や EFF のような団体は、すでに企業に取り込まれており、有害ですらある

  • Internet Archive に分散型の住宅用 IP クローラープログラムがあるなら、喜んで参加したい
    ただし改ざん防止メカニズムは必要だ

    • Internet Archive にはないが、Archive Team Warrior はある
    • IA はすべてを公開で処理しており、不当な DMCA 要求ですら尊重する
    • TLS を彼ら側で終端すれば簡単だ。結局は住宅用プロキシとして動作することになる
  • 肥料とディーゼルを一緒に売っているなら、農業向けサプライヤーだと推定するのは合理的だ
    しかし、農家ではない相手にトラック単位で販売しているなら、疑うのも当然だ