Google Booksまたは類似の全書籍スキャンに20万ドルの懸賞金提示(2025年)
(software.annas-archive.gl)- Anna’s ArchiveがGoogle Booksの全書籍スキャン、または同規模のコレクションの確保に20万ドルの懸賞金を設定
- 現在のGoogle Booksへのアクセスは、検索結果周辺の小さなスニペットが中心であり、完全なスキャンの確保がアーカイブの観点から重要課題とされている
- スケーラブルな方法を見つけたなら、完成版を待たずプロトタイプ段階で連絡してほしいと案内
- Google内部のアクセス権を持つ人も対象で、画像なしのOCRテキストのみを確保できた場合でも懸賞金の半額を支払う可能性がある
- 対象はGoogle Booksに限らず、AI企業などが収集した希少書籍を含む大規模コレクションにも適用される
懸賞金の対象と参加条件
- Anna’s Archiveは、Google Booksまたは類似の全書籍スキャンの確保に**$200,000の懸賞金**を提示
- 作業前にAnna’s Archiveのbounties案内を注意深く読む必要がある
- Google Booksは多くのスキャン書籍を保有しているが、検索でアクセスすると結果周辺の小さなスニペットしか見えない状態となっている
- 拡張可能性のある方法を見つけたなら、完成版まで待たずプロトタイプの段階で早めに連絡してほしいと案内
- その後の拡張作業はAnna’s Archiveが支援できる
- Googleで働いており、当該データにアクセスできる人も懸賞金の対象に含まれる
- $200,000は大金ではないかもしれないが、データを持ち出せれば「伝説的なアーキビスト」と呼ばれるだろうと記している
- 懸賞金はGoogle Books以外の同規模コレクションにも適用される
- 例としてAI企業が収集したコレクションを挙げている
- 特に希少書籍をかなり含むコレクションであれば対象となる
コメントで整理された規模と受け渡し方法
- あるコメントでは、アーカイブ全体は著作権付き資料を含め約7PBと書かれていたが、その後約1.5PBであり、IUPUIサイトの複製を含む数値だと訂正された
- パブリックドメインおよび著者公開資料は約300TB規模と言及されている
- Anna’s Archiveは、パブリックドメインおよび著者公開資料にまだスクレイプが存在しないなら、別途懸賞金を追加する意向があると回答
- 完全な画像ではなくOCRテキストのみを持ち出す場合でも、この懸賞金の目的においては半額を支払えるとしている
- 大量データを確保した際の受け渡し方法として、SFTPまたは類似の方法が言及されている
- issueのタイトルは2025年6月7日に
Google Books (or similar) all book scans — $200,000 bountyへ変更された
1件のコメント
Hacker News の意見
英語の本を入手しにくい国に住んでいるため、海外のオンライン購入には行政手続きや制限があまりにも多い。
Anna's Archive と Z-Library がなければ、今の自分を形作った本を読むこともできず、学びへの情熱を保つのも難しかったはずだ。
本代を払えないまま知識を得た著者たちにも感謝している。
知識は真空の中で生まれたものではなく、皆のものだ。
以前 Reddit で、ある著者が自分の本が違法共有サイトに上がった後、実売が崩れたという統計を投稿していたことがあった。
だから特に プログラミング本 はできるだけ購入するようにしていて、PDF はプレビューのように使っている。むしろそのおかげで、以前よりずっと多く買うようになった。
もちろん購入自体が不可能な地域に住んでいるなら話は別だが、こうしたサイトを称賛するときは、良い面だけを見がちだ。
Kobo に EPUB を送るうえで重要なツールだ。
https://SourceLibrary.org には希少本の翻訳版が約16,000冊あり、その大半は初訳だ。
保管されている本は50,000冊で、資金が得られれば翻訳する予定であり、トークン数は英語版 Wikipedia より多く、規模は約0.75PBだ。
報奨の対象になるかは分からないが共有したいし、ルネサンス期文献の翻訳を支援してくれる小口・大口の支援者を探している。
何をすべて保管しているのかはすぐには把握しにくいが、学術界の歴史家の友人たちの中には特定分野に関心を持つ人がいそうで、一部の難解な言語の検証も手伝えるかもしれない。
地域や言語別の検索が可能なのか気になる。
歴史家の側とこのプロジェクトについて接触してみたのかも気になる。博士課程の学生がここから研究テーマを見つけることもあり得そうだ。
タイムライン https://sourcelibrary.org/timeline を見たところ、エラーが出た。
昨日 Anna's Archive が本当に役に立った。
2000年代初頭のプログラミング本に付属していた CD の ZIP ファイルを数日間探していたが、中古出品はどれも CD がないと言っていて、検索しても見つからず、LLM も見つけられなかった。
ChatGPT は archive にあると繰り返し言っていたが実際にはなく、ダメ元で AA に行ってみたら、第1版と第2版用の ZIP ファイルがどちらもあった。本当に救世主のようだった。
インターネットのスクレイピングにも報奨金がかけられるまで、どれくらいかかるのか気になる。
Cloudflare CAPTCHA のせいで、私にとってインターネットはほとんど使い物にならないレベルになっており、今後さらに悪化しそうだ。
いっそ archive.is のようなサイトのコピーを見て回るか、torrent で入手するほうがよさそうだ。後者はプライバシー面でもずっと良いし、どうせ広告ブロッカーも使っている。
スマート TV かもしれない。原因を見つけて取り除けば、IP 評判が改善して CAPTCHA を見る機会が減る可能性がある。
こういう小さな利益相反がある。
Anna's Archive の背後に誰がいるのか気になる。チームやフォーラムには英語圏の人が多く見える。
いずれにせよ、購入が所有でない限り問題はないと思う。
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
それに紙の本として買えば購入は確実に所有になるので、本についてはその文は少し不適切に感じる。
ただ、これほど代替手段が少ないことのほうが驚きだ。Facebook などが LibGen と戦争を繰り広げ、LibGen が落ちた後も代替は意外なほどほとんどなく、Anna's Archive は数少ない選択肢の一つだった。
LibGen に正確に何が起きたのかはまだ分からないが、その攻撃以降は実質的に半分消えた状態のように見える。
「報奨作業をする前に [this] を注意深く読め」という文言で、[this] が .li アドレスにつながっているが、危険な場所に飛ぶ。
正しいアドレスは https://annas-archive.gl/volunteering#bounties のはずだ。
もし今、Googleで解雇されるのではないかと心配している人がいるなら、これがバックアッププランなのかもしれない
アクセス権を持つごく少数の中でも、コンテンツのごくわずかな割合をダウンロードし始めただけで、自動システムに検知される可能性が高い
彼らが提供しているほかの興味深い報奨タスク: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Library of Congress MARCデータセット全体の購入 — 報奨金3,000ドル
関連機関についての英語Wikipediaページ — 新規ページ1件あたり最大100ドル
Internet Archive Digital Lending — PDF 100万件あたり5,000ドル
ライブラリ全体のテキスト版 — 20,000ドル、など
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
海賊版と著作権は今後どうなるのか気になる
今のようなレンタル中心の状況は持続不可能に見える。周囲の普通の人たちもVPNやNASのようなものをかなり知るようになってきた
Spotify、Netflix、Amazonなどはしばらくの間かなりの価値を提供していたが、いまやサービスの劣化が本格化しており、大規模な回帰が起きる時期に来ている
Geminiはすでにそれらの本で学習されている可能性が高いので、理論上は一部の文をそのまま吐き出すこともあり得る
以前、NYTがOpenAIを相手に起こした訴訟でも、そのような事例が明らかになった
ただし可逆圧縮ではなく、次トークン予測タスクを行ううえで重要な部分は残し、それ以外は模倣する方法を見つけたものだ