4 ポイント 投稿者 GN⁺ 2025-11-06 | 1件のコメント | WhatsAppで共有
  • Anna’s Archive は、海賊版の電子書籍や資料を見つけられる シャドーライブラリのメタ検索エンジン で、2022年秋に開設された
  • 過去3年間にわたり、出版社と著者による著作権申告 により、Google はこのサイトの 7億4900万件のURLを検索結果から削除 した
  • これは Google がこれまで処理した すべての著作権関連URLの5% に相当し、The Pirate Bay よりはるかに多い規模
  • Penguin Random House、John Wiley & Sons など 1000を超える権利者 が DMCA 要請を提出しており、毎週約 1000万件の新規URL が通報されている
  • 大規模な削除にもかかわらず、Anna’s Archive の主要ドメインには依然としてアクセス可能 で、Google 検索でもサイト名なら簡単に見つけられる

Anna’s Archive の概要

  • Anna’s Archive は、複数のシャドーライブラリを横断検索できる メタ検索エンジン であり、違法に複製された書籍や資料を探す機能を提供している
    • 2022年秋、Z-Library が米当局の取り締まりを受けた直後に開設された
    • 一般大衆に「無料」の書籍や論文を引き続き提供することを目的として始まった
  • 開設後の3年間で 複数の国でブロック措置 を受け、WorldCat データ2.2TBの無断収集 の疑いで米国で提訴された
  • また、AI研究者にデータアクセスを支援 する活動も進めている

Google による大規模削除措置

  • Google は、著作権侵害が疑われるURLを 権利者の要請に応じて検索結果から削除 している
  • Anna’s Archive 関連では合計 7億8400万件のURL が通報され、このうち 7億4900万件が実際に削除 された
    • 一部のリンクは Google がインデックスしていなかったため、削除対象から除外された
  • 比較例として、The Pirate Bay は420万件のURLが削除されており、Anna’s Archive の規模ははるかに大きい
  • このサイトは複数の国別サブドメインを運用し膨大なページを保有しているため、削除対象URL数が多い

Google の著作権削除全体の5%を占める

  • Google の透明性レポートによれば、2012年以降、合計 151億件の著作権侵害URL が通報されている
    • このうち Anna’s Archive 関連URLが全体の5% を占める
  • Penguin Random HouseJohn Wiley & Sons が主要な通報主体で、1000を超える出版社と著者 が DMCA 要請を提出した
  • 現在も毎週約 1000万件の新規URL が追加で通報されている

検索結果での可視性

  • 大規模削除により、書籍関連の検索語でのサイト露出は減少 している
    • 多くのURLが非表示になったり、検索順位が下がったりしている
  • しかし、「Anna’s Archive」という名前で直接検索すれば、依然として主要ドメインが上位に表示 される
  • Google の措置にもかかわらず、サイト自体へのアクセスは遮断されていない

出版業界の対応と限界

  • 出版社はサイト自体を直接ブロックすることが難しいため、Google などの第三者プラットフォームに削除要請 を継続的に提出している
  • 法的圧力にもかかわらず、annas-archive.org、.li、.se などの主要ドメインは依然として運営中
  • 原文には、追加の今後の措置や政策変更に関する言及はない

1件のコメント

 
GN⁺ 2025-11-06
Hacker Newsのコメント
  • 変に聞こえるかもしれないが、Yandex は DMCA 要請で消されたコンテンツを探すときにかなり優秀な検索エンジンだと気づいた。
    たとえば Netflix にない映画を Web ストリーミングで見たいとき、検索結果がずっと良い。
    まるで 2005年の Google をもう一度使っている感じだ。

    • 私は数年前から bittorrent infohash を探すときに Yandex を使い始めた。
      Google、Bing、DuckDuckGo がもうまともな結果を返さなくなったからだ。
      最近はブロックチェーンエクスプローラーのような場所で短い部分一致しか表示されないが、これが意図的なのか、それとも ファジーマッチング(fuzzy matching) を試しているせいなのかは分からない。
      いずれにせよ、この用途では完全に失格だ。
    • 私は Kagi、Startpage、Ecosia、DDG などいろいろな検索エンジンを使ってきたが、どれも Google より 関連性の高い結果 を返してくれる。
      Google はパーソナライズされすぎている。
    • ウクライナ人として、Yandex が プロパガンダの道具 に変わってしまったことには怒りを感じるが、エンジニアとしては彼らの 数十年にわたる研究の遺産 と卓越した検索技術には敬意を抱いている。
    • 私は長いこと、検索エンジンの品質をこうやってテストしてきた。
      良いエンジンは海賊版サイトを表示し、素晴らしいエンジンはそれらを 偽の結果より上位に 出してくれる。
      だが、優れたエンジンほど結局は注目を浴びて、その結果を削除させられる。
      そうなったら別の場所を探すべき時だ。
    • 面白いことに、数日前に妻が自分の国の歴史の話をしていて関連映画を勧めてくれたのだが、Google、DDG、Bing、Brave のどこにも出てこなかった。
      ところが Yandex では 上位3件以内に すぐ出てきた。
      ちなみに DDG はもうほとんど Google と同じで、スポンサー結果 まで付いている。
  • Anna’s Archive はすでに Google の Gemini 学習に必要なデータを全部提供し終えたので、今では存在しないふりをしているようだ。

    • Anna’s Archive がかつて世界の情報を整理して 普遍的にアクセス可能に したことがあったのか気になる。
    • Google は透明性ログを自主的に運営しており、DMCA 準拠は法解釈の問題にすぎない。
      オンラインコミュニティがこれをめぐって 悪意ある陰謀論 を作り上げるのは理解しがたい。
  • Google がまた検索をしているって?
    最近は、私が使っている チャットボットのブランド が SEO スパムサイト 100件を避けて同じ情報を見つけてくれるので、その便利さにどう対抗できるのか分からない。

    • チャットボットは Google より スパムの影響を受けにくい と聞いたが、本当なのだろうか。
    • 昔は Google が検索をしていた時代があったように記憶している。
      (ハンドルネームがかっこいい)
    • チャットボットが独自の インターネット規模のインデックス を持っているわけではない。
      結局のところ、情報源を自分で直接確認する 判断力 を放棄しただけだ。
    • チャットボットが提示するリンクの 25〜90% は ハルシネーション(hallucination) だ。
      そうでなければ結局、Google 検索を代行しているだけだ。
    • LLM ベースの AI は本質的に データ操作攻撃 に弱い。
      本物の人間レベルの AGI ならこうした試みを見抜くだろうが、現在のチャットボットにはそれができない。
      関連記事: NYTimes - AI Chatbot Prompts and Manipulation
  • 私は Google が不快に思いそうな検索はまったくしない。
    シリアル番号、企業の電話番号、論文、本 のようなものは全部 Yandex か Brave で探している。
    Google が何をしようと関係ない。どうせ使わないからだ。

  • Anna’s Archive が消える前に z-archive torrent を全部落としておくべきだと思っている。
    大きな PDF と非英語圏の本を除けば、32TB ドライブ2台 に圧縮して入れられそうだ。
    https://annas-archive.org/torrents

    • 大きな PDF を除外するというのは、あまりにも恣意的な基準ではないだろうか。
      PDF が大きいのはしばしば 色や解像度の問題 のためであって、内容のためではない。
    • 私は以前、DPI と色深度 を下げてから再度 PDF にまとめ直す方法で容量を減らしたことがある。
      同じ本の複数版を自動識別して、epub を1つだけ残して残りを削除 することも可能だ。
    • 私も英語版・ドイツ語版・フランス語版のバックアップを作りたい。
      ただ、HDD とファイルシステムが問題なので、torrent splitter のようなものを自作しなければならないかもしれない。
    • 私は 小さいファイルから埋めていく方式 でリストを逆順にして整理している。
  • https://annas-archive.org

  • 私はこういうサイトのコンテンツを Google 依存で見つけたことはほとんどない。
    サイト自体が タイトル、著者、形式、日付 でよくインデックスされているので、自由検索で十分可能だ。

    • Google のような Web 検索は 類義語検索 に強みがある。
      たとえば “a a a a ah ah ah ah dance song” で検索しても Otto Knows の “Million Voices” を見つけてくれる。
    • ただ、こうしたサイトには 全文検索(full-text search) 機能はないのではないかと思う。
      Google も Anna’s Archive のページ本文まではインデックスしていない気がする。
  • 最近 Library Genesis が閉鎖されたあと、Anna’s Archive が最後に残った書籍リポジトリのように見える。
    他に代替があるのか気になる。

    • Anna’s Archive からリンクされている Open-Slum.org がある。
    • 本なら WeLib.org、オーディオブックなら AudiobookBay を勧める。
  • Google の 無意味化への行進 は続いている。

    • それでもなお、世界中の検索クエリの 97% は Google が占めている。
  • Web 検索の環境は完全に変わってしまった。

    • 囲い込み型プラットフォーム(walled garden) が増え、検索エンジンがアクセスできない領域が多くなった。
    • 法的制約 によってアクセス不能なデータも多い。
    • 今では Google だけでなく、Yandex、Kagi、ChatGPT まで併用しなければならない。
    • 私は自作のインデックス Internet Places Database も併用している。