- Anna’s Archive は、海賊版の電子書籍や資料を見つけられる シャドーライブラリのメタ検索エンジン で、2022年秋に開設された
- 過去3年間にわたり、出版社と著者による著作権申告 により、Google はこのサイトの 7億4900万件のURLを検索結果から削除 した
- これは Google がこれまで処理した すべての著作権関連URLの5% に相当し、The Pirate Bay よりはるかに多い規模
- Penguin Random House、John Wiley & Sons など 1000を超える権利者 が DMCA 要請を提出しており、毎週約 1000万件の新規URL が通報されている
- 大規模な削除にもかかわらず、Anna’s Archive の主要ドメインには依然としてアクセス可能 で、Google 検索でもサイト名なら簡単に見つけられる
Anna’s Archive の概要
- Anna’s Archive は、複数のシャドーライブラリを横断検索できる メタ検索エンジン であり、違法に複製された書籍や資料を探す機能を提供している
- 2022年秋、Z-Library が米当局の取り締まりを受けた直後に開設された
- 一般大衆に「無料」の書籍や論文を引き続き提供することを目的として始まった
- 開設後の3年間で 複数の国でブロック措置 を受け、WorldCat データ2.2TBの無断収集 の疑いで米国で提訴された
- また、AI研究者にデータアクセスを支援 する活動も進めている
Google による大規模削除措置
- Google は、著作権侵害が疑われるURLを 権利者の要請に応じて検索結果から削除 している
- Anna’s Archive 関連では合計 7億8400万件のURL が通報され、このうち 7億4900万件が実際に削除 された
- 一部のリンクは Google がインデックスしていなかったため、削除対象から除外された
- 比較例として、The Pirate Bay は420万件のURLが削除されており、Anna’s Archive の規模ははるかに大きい
- このサイトは複数の国別サブドメインを運用し膨大なページを保有しているため、削除対象URL数が多い
Google の著作権削除全体の5%を占める
- Google の透明性レポートによれば、2012年以降、合計 151億件の著作権侵害URL が通報されている
- このうち Anna’s Archive 関連URLが全体の5% を占める
- Penguin Random House と John Wiley & Sons が主要な通報主体で、1000を超える出版社と著者 が DMCA 要請を提出した
- 現在も毎週約 1000万件の新規URL が追加で通報されている
検索結果での可視性
- 大規模削除により、書籍関連の検索語でのサイト露出は減少 している
- 多くのURLが非表示になったり、検索順位が下がったりしている
- しかし、「Anna’s Archive」という名前で直接検索すれば、依然として主要ドメインが上位に表示 される
- Google の措置にもかかわらず、サイト自体へのアクセスは遮断されていない
出版業界の対応と限界
- 出版社はサイト自体を直接ブロックすることが難しいため、Google などの第三者プラットフォームに削除要請 を継続的に提出している
- 法的圧力にもかかわらず、annas-archive.org、.li、.se などの主要ドメインは依然として運営中
- 原文には、追加の今後の措置や政策変更に関する言及はない
1件のコメント
Hacker Newsのコメント
変に聞こえるかもしれないが、Yandex は DMCA 要請で消されたコンテンツを探すときにかなり優秀な検索エンジンだと気づいた。
たとえば Netflix にない映画を Web ストリーミングで見たいとき、検索結果がずっと良い。
まるで 2005年の Google をもう一度使っている感じだ。
Google、Bing、DuckDuckGo がもうまともな結果を返さなくなったからだ。
最近はブロックチェーンエクスプローラーのような場所で短い部分一致しか表示されないが、これが意図的なのか、それとも ファジーマッチング(fuzzy matching) を試しているせいなのかは分からない。
いずれにせよ、この用途では完全に失格だ。
Google はパーソナライズされすぎている。
良いエンジンは海賊版サイトを表示し、素晴らしいエンジンはそれらを 偽の結果より上位に 出してくれる。
だが、優れたエンジンほど結局は注目を浴びて、その結果を削除させられる。
そうなったら別の場所を探すべき時だ。
ところが Yandex では 上位3件以内に すぐ出てきた。
ちなみに DDG はもうほとんど Google と同じで、スポンサー結果 まで付いている。
Anna’s Archive はすでに Google の Gemini 学習に必要なデータを全部提供し終えたので、今では存在しないふりをしているようだ。
オンラインコミュニティがこれをめぐって 悪意ある陰謀論 を作り上げるのは理解しがたい。
Google がまた検索をしているって?
最近は、私が使っている チャットボットのブランド が SEO スパムサイト 100件を避けて同じ情報を見つけてくれるので、その便利さにどう対抗できるのか分からない。
(ハンドルネームがかっこいい)
結局のところ、情報源を自分で直接確認する 判断力 を放棄しただけだ。
そうでなければ結局、Google 検索を代行しているだけだ。
本物の人間レベルの AGI ならこうした試みを見抜くだろうが、現在のチャットボットにはそれができない。
関連記事: NYTimes - AI Chatbot Prompts and Manipulation
私は Google が不快に思いそうな検索はまったくしない。
シリアル番号、企業の電話番号、論文、本 のようなものは全部 Yandex か Brave で探している。
Google が何をしようと関係ない。どうせ使わないからだ。
Anna’s Archive が消える前に z-archive torrent を全部落としておくべきだと思っている。
大きな PDF と非英語圏の本を除けば、32TB ドライブ2台 に圧縮して入れられそうだ。
https://annas-archive.org/torrents
PDF が大きいのはしばしば 色や解像度の問題 のためであって、内容のためではない。
同じ本の複数版を自動識別して、epub を1つだけ残して残りを削除 することも可能だ。
ただ、HDD とファイルシステムが問題なので、torrent splitter のようなものを自作しなければならないかもしれない。
https://annas-archive.org
私はこういうサイトのコンテンツを Google 依存で見つけたことはほとんどない。
サイト自体が タイトル、著者、形式、日付 でよくインデックスされているので、自由検索で十分可能だ。
たとえば “a a a a ah ah ah ah dance song” で検索しても Otto Knows の “Million Voices” を見つけてくれる。
Google も Anna’s Archive のページ本文まではインデックスしていない気がする。
最近 Library Genesis が閉鎖されたあと、Anna’s Archive が最後に残った書籍リポジトリのように見える。
他に代替があるのか気になる。
Google の 無意味化への行進 は続いている。
Web 検索の環境は完全に変わってしまった。