1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • Anna’s ArchiveがGoogle Booksの全書籍スキャン、または同規模のコレクションの確保に20万ドルの懸賞金を設定
  • 現在のGoogle Booksへのアクセスは、検索結果周辺の小さなスニペットが中心であり、完全なスキャンの確保がアーカイブの観点から重要課題とされている
  • スケーラブルな方法を見つけたなら、完成版を待たずプロトタイプ段階で連絡してほしいと案内
  • Google内部のアクセス権を持つ人も対象で、画像なしのOCRテキストのみを確保できた場合でも懸賞金の半額を支払う可能性がある
  • 対象はGoogle Booksに限らず、AI企業などが収集した希少書籍を含む大規模コレクションにも適用される

懸賞金の対象と参加条件

  • Anna’s Archiveは、Google Booksまたは類似の全書籍スキャンの確保に**$200,000の懸賞金**を提示
  • 作業前にAnna’s Archiveのbounties案内を注意深く読む必要がある
  • Google Booksは多くのスキャン書籍を保有しているが、検索でアクセスすると結果周辺の小さなスニペットしか見えない状態となっている
  • 拡張可能性のある方法を見つけたなら、完成版まで待たずプロトタイプの段階で早めに連絡してほしいと案内
    • その後の拡張作業はAnna’s Archiveが支援できる
  • Googleで働いており、当該データにアクセスできる人も懸賞金の対象に含まれる
    • $200,000は大金ではないかもしれないが、データを持ち出せれば「伝説的なアーキビスト」と呼ばれるだろうと記している
  • 懸賞金はGoogle Books以外の同規模コレクションにも適用される
    • 例としてAI企業が収集したコレクションを挙げている
    • 特に希少書籍をかなり含むコレクションであれば対象となる

コメントで整理された規模と受け渡し方法

  • あるコメントでは、アーカイブ全体は著作権付き資料を含め約7PBと書かれていたが、その後約1.5PBであり、IUPUIサイトの複製を含む数値だと訂正された
  • パブリックドメインおよび著者公開資料は約300TB規模と言及されている
  • Anna’s Archiveは、パブリックドメインおよび著者公開資料にまだスクレイプが存在しないなら、別途懸賞金を追加する意向があると回答
  • 完全な画像ではなくOCRテキストのみを持ち出す場合でも、この懸賞金の目的においては半額を支払えるとしている
  • 大量データを確保した際の受け渡し方法として、SFTPまたは類似の方法が言及されている
  • issueのタイトルは2025年6月7日にGoogle Books (or similar) all book scans — $200,000 bountyへ変更された

1件のコメント

 
GN⁺ 4 시간 전
Hacker News の意見
  • 英語の本を入手しにくい国に住んでいるため、海外のオンライン購入には行政手続きや制限があまりにも多い。
    Anna's ArchiveZ-Library がなければ、今の自分を形作った本を読むこともできず、学びへの情熱を保つのも難しかったはずだ。
    本代を払えないまま知識を得た著者たちにも感謝している。

    • 半分冗談、半分本気で言えば、では今の人生全体が犯罪収益のおかげということなのか、と言えるかもしれないが、知識は自由であるべきだ。
      知識は真空の中で生まれたものではなく、皆のものだ。
    • その立場は理解できるが、著者がお金を得られなかったなら、それらの本の多くはそもそも存在しなかった可能性が高い。
      以前 Reddit で、ある著者が自分の本が違法共有サイトに上がった後、実売が崩れたという統計を投稿していたことがあった。
      だから特に プログラミング本 はできるだけ購入するようにしていて、PDF はプレビューのように使っている。むしろそのおかげで、以前よりずっと多く買うようになった。
      もちろん購入自体が不可能な地域に住んでいるなら話は別だが、こうしたサイトを称賛するときは、良い面だけを見がちだ。
    • ユーザー名に場所が書かれていて助かった。最近オンラインで「うちの国では」と言いながら、最後までどの国なのか明かさないのが一番気に障る。
    • https://send.djazz.se/
      Kobo に EPUB を送るうえで重要なツールだ。
  • https://SourceLibrary.org には希少本の翻訳版が約16,000冊あり、その大半は初訳だ。
    保管されている本は50,000冊で、資金が得られれば翻訳する予定であり、トークン数は英語版 Wikipedia より多く、規模は約0.75PBだ。
    報奨の対象になるかは分からないが共有したいし、ルネサンス期文献の翻訳を支援してくれる小口・大口の支援者を探している。

    • 成果物は美しく、回答も適切で、響くものがある。資金調達は有料研究 APIのような方法もあり得そうだ。
    • 面白そうだ。
      何をすべて保管しているのかはすぐには把握しにくいが、学術界の歴史家の友人たちの中には特定分野に関心を持つ人がいそうで、一部の難解な言語の検証も手伝えるかもしれない。
      地域や言語別の検索が可能なのか気になる。
      歴史家の側とこのプロジェクトについて接触してみたのかも気になる。博士課程の学生がここから研究テーマを見つけることもあり得そうだ。
      タイムライン https://sourcelibrary.org/timeline を見たところ、エラーが出た。
    • ここまで到達するのに予算がどれくらいかかったのか気になる。トークン数が膨大で、おそらく Gemini Flash を使っているように見える。
  • 昨日 Anna's Archive が本当に役に立った。
    2000年代初頭のプログラミング本に付属していた CD の ZIP ファイルを数日間探していたが、中古出品はどれも CD がないと言っていて、検索しても見つからず、LLM も見つけられなかった。
    ChatGPT は archive にあると繰り返し言っていたが実際にはなく、ダメ元で AA に行ってみたら、第1版と第2版用の ZIP ファイルがどちらもあった。本当に救世主のようだった。

  • インターネットのスクレイピングにも報奨金がかけられるまで、どれくらいかかるのか気になる。
    Cloudflare CAPTCHA のせいで、私にとってインターネットはほとんど使い物にならないレベルになっており、今後さらに悪化しそうだ。
    いっそ archive.is のようなサイトのコピーを見て回るか、torrent で入手するほうがよさそうだ。後者はプライバシー面でもずっと良いし、どうせ広告ブロッカーも使っている。

    • 同じネットワーク上の誰かが Bright Data プロキシで収益化されるゲームを動かしている可能性が高い。数日前にも関連スレッドがあった。
      スマート TV かもしれない。原因を見つけて取り除けば、IP 評判が改善して CAPTCHA を見る機会が減る可能性がある。
    • https://x.com/CloudflareDev/status/2031488099725754821
      こういう小さな利益相反がある。
  • Anna's Archive の背後に誰がいるのか気になる。チームやフォーラムには英語圏の人が多く見える。
    いずれにせよ、購入が所有でない限り問題はないと思う。

    • Anna が背後にいるようだ。
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • そこにある本のかなり多くは、もともとDRM なしの形式で購入可能なはずだ。思ったより DRM を気にしない著者は多い。
      それに紙の本として買えば購入は確実に所有になるので、本についてはその文は少し不適切に感じる。
    • 主な出どころはロシアだったように思うし、そうでなければそれは LibGen だったのかもしれない。
      ただ、これほど代替手段が少ないことのほうが驚きだ。Facebook などが LibGen と戦争を繰り広げ、LibGen が落ちた後も代替は意外なほどほとんどなく、Anna's Archive は数少ない選択肢の一つだった。
      LibGen に正確に何が起きたのかはまだ分からないが、その攻撃以降は実質的に半分消えた状態のように見える。
    • 本当に問題がないと思うなら、なぜ公開フォーラムで背後に誰がいるのか尋ねるのか疑問だ。
  • 「報奨作業をする前に [this] を注意深く読め」という文言で、[this] が .li アドレスにつながっているが、危険な場所に飛ぶ。
    正しいアドレスは https://annas-archive.gl/volunteering#bounties のはずだ。

  • もし今、Googleで解雇されるのではないかと心配している人がいるなら、これがバックアッププランなのかもしれない

    • データを持ち出して見つかったら、20万ドルをはるかに超える金額で訴えられるだろう
    • 一般社員がアーカイブ全体にアクセスできる可能性は低い
      アクセス権を持つごく少数の中でも、コンテンツのごくわずかな割合をダウンロードし始めただけで、自動システムに検知される可能性が高い
    • さらに大きな問題は、これによって金銭的損害が発生する点だ。おそらく別の国へ移住する準備まで必要になるかもしれない
  • 彼らが提供しているほかの興味深い報奨タスク: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Library of Congress MARCデータセット全体の購入 — 報奨金3,000ドル
    関連機関についての英語Wikipediaページ — 新規ページ1件あたり最大100ドル
    Internet Archive Digital Lending — PDF 100万件あたり5,000ドル
    ライブラリ全体のテキスト版 — 20,000ドル、など

  • 海賊版と著作権は今後どうなるのか気になる
    今のようなレンタル中心の状況は持続不可能に見える。周囲の普通の人たちもVPNNASのようなものをかなり知るようになってきた

    • 実際に作品を作っている著者やアーティストがどれほど少ない取り分しか得ていないか調べると、ギロチンこそ答えであってほしいと思ってしまう
    • そもそも持続可能な構造ではなく、大手知的財産権保有者による規制の取り込みだった
      Spotify、Netflix、Amazonなどはしばらくの間かなりの価値を提供していたが、いまやサービスの劣化が本格化しており、大規模な回帰が起きる時期に来ている
  • Geminiはすでにそれらの本で学習されている可能性が高いので、理論上は一部の文をそのまま吐き出すこともあり得る
    以前、NYTがOpenAIを相手に起こした訴訟でも、そのような事例が明らかになった

    • Gemini、GPT、Fableは事実上、インターネット上のコンテンツの非常に優れた圧縮版
      ただし可逆圧縮ではなく、次トークン予測タスクを行ううえで重要な部分は残し、それ以外は模倣する方法を見つけたものだ