Anna's Archive: チームからの最新アップデート
(annas-archive.org)- 最近、ミッションに対する攻撃が増加しているため、インフラおよび運用セキュリティの強化を進めている
- 2022年の開始以来、数千万件の書籍、論文、雑誌、新聞などの資料を安全に保存し共有している
- 大規模スクレイピングにより、WorldCat、Google Books などから膨大なメタデータを確保し、未収集資料の把握に活用している
- LibGen、Z-Library などとのパートナーシップを通じて数千万件の追加資料を確保したが、一部パートナーが消えたことは残念でもある
- WeLib などの新興サイトとは慎重な関係を維持しており、コミュニティへの貢献が不十分であることを理由に利用自粛を推奨している
最近の状況とチームの対応
- 最近、Anna's Archive のミッションを狙った攻撃が増えている
- そのため、インフラと運用セキュリティの強化措置を進めている
- 人類の知的遺産を安全に保存することは、今後も追求する価値のある活動である
資料の解放と保存活動
- 2022年の開始以来、数千万冊の書籍、科学論文、雑誌、新聞など多様なコンテンツを確保してきた
- これらの資料は、自然災害、戦争、予算削減などさまざまな脅威から保護された状態にある
- トレントで資料配布に参加してくれたすべての人々の尽力により、資料消失への懸念は大きく減った
大規模スクレイピングとメタデータの確保
- Anna's Archive は IA Controlled Digital Lending、HathiTrust、DuXiu などで大規模スクレイピングを組織的に進めている
- tens of millions に及ぶ資料ファイルの確保に成功した
- WorldCat、Google Books などから 膨大な書籍メタデータコレクション を構築した
- 確保したメタデータにより、コレクションにまだ含まれていない書籍を特定し、希少資料を優先的に確保する戦略に活用している
コミュニティと協力、新たな展開
- LibGen フォーク、STC/Nexus、Z-Library などの協力パートナーと連携し、数千万件の追加ファイルを確保した
- パートナーたちはファイルをミラーするなど、ミッションに大きく貢献している
- しかし、LibGen フォークの一つが消えたことは残念な出来事として受け止めている
新規プロジェクトと注意事項
- 最近では、WeLib という新しいプロジェクトが登場した
- アーカイブコレクションの大部分をミラーしており、Anna’s Archive のコードベースのフォークを使用している
- WeLib のユーザーインターフェース改善点の一部を取り入れて反映した
- しかし、新しいコレクションの共有やコードベース改善の共有がなく、エコシステムへの貢献に対する約束が不足している
- そのため、WeLib の利用には注意を推奨する
- さらに、内部では 数百テラバイト規模の新規コレクション がサーバー上で準備され、処理待ちとなっている
ボランティアと支援のお願い
-
誰でも ボランティアおよび寄付ページ を通じてプロジェクトに参加できる
-
いずれも小規模な予算で運営されており、わずかな支援でも大きな価値 がある
-
今後も知的遺産の保護と解放のための 継続的な努力を呼びかけている
-
Anna およびチーム一同(Reddit コミュニティ参照)
1件のコメント
Hacker Newsのコメント
自分が買う本はAnna's Archiveで選び、マンガ本は readComicsOnline、ヨーロッパのグラフィックノベルは #WONTTELL で選んでいる。この3つのオフライン書店ではかなりの常連客だ。広告に流されて買うのではなく、徹底的に探して本当に良い作品だけを見つける。店員が自分のオンラインで見つけた珍しい本を取り寄せるのに苦労することもある。自分が例外なのか気になるが、こうしたサービスは自分の自由な選択権を守ってくれる
これは複雑な問題だ。昔、映画のリリースグループで活動していたが、そのメンバーの大半は一般人よりはるかに多くのVHS/DVDを所有していた。それだけの労力と時間が必要なことでもある。単にダウンロードだけする人たちはもっと入り混じっていた。一部は海外在住で国内リリース作品を見られず、一部はメディアをまったく買わないことを誇らしげに語っていた
似たような状況だ。Anna's Archiveのおかげで、学校の図書館よりずっと楽に資料を探せる。家から探して、必要な情報を得て、削除もできる。内容を先に確認して、本当に良ければ所蔵用に買う。以前より本を多く買っているわけではないが、満足度ははるかに高い。一方で、アップロードサイトのおかげで聞いたこともなかった良い映画を知るようになり、以前より映画をずっと多く買うようになった
フランスのマンガ海賊版界隈では、だいたい6か月ほど遅らせて新刊を流通させている。規模が小さいのでこのルールがうまく機能している。そのおかげでマンガに興味を持つようになり、気に入った作品があれば発売と同時に喜んで買い、DRMは個人保存用に外している。ダウンロードの大半は収集・アーカイブ寄りで、本当に面白く最後まで読んだものについては著者を支援している
自分もまったく同じだ。シリーズが面白そうならまず1巻だけ落として、3分の1くらい読んでみて、本当に良ければ後で買って読む。月に本はだいたい3~4冊買う(できれば drm free epub が好み)。ヨーロッパのグラフィックノベルは月10冊くらい買う(紙の本のみ)。自分もかなりのヘビーユーザーだ
昔インディーゲームを追っていたことがあるが、開発者はDRMなしの体験を提供しようとしていた。オンライン機能(例: リーダーボード)もあったが、実際の販売数をはるかに上回る数のアカウントがオンライン接続しているのを見つけて困惑していた。開発者たちは機能説明の中で、コピー版を使わず正規版を買ってほしいと人々に訴えるようになった。結局人気はあったのに、海賊版コピーが多すぎてお金を払う人が少なすぎたため、チームはプロジェクトを断念した。海賊版の話になると、自分たちは平均より多く消費しているのだからと自分の行動を正当化しようとする人が多いが、実際の統計データを見ると、無料で使えるからという人が大多数だ
シャドウライブラリの運営者たちは人類に大きく貢献しているのだから、ノーベル賞ものだ。Satoshiもきっと誇りに思うだろう
Satoshiが誇りに思う点があるとすれば、検閲を恐れずにシャドウライブラリを支援できること、そして項目1つでもリストとして扱ってくれることだ
aaronsw もたぶん誇りに思うだろう
彼ならコインを少しくらい出してくれただろう、それは彼にとっては小銭みたいなものだ
誰でもシードを上げて長期保存に参加できる torrents の一覧を提供している https://annas-archive.org/torrents
i2pベースのトレントが意外なほどまだ広く普及しておらず、こういうサイトでオプション提供されていないのは驚きだ。法的負担のために貢献できない人が多いと思うので、i2pが役立つかもしれない
sci-hub は約90TB、libgen-non-fiction は77.5TBほどというのが印象的だ。この2つこそ論文や教科書など中核的な科学知識を含んでおり、ぜひ保護すべきアーカイブだ。自分も自宅サーバーに16TBほど保存しているが、200TB規模に拡張するとなると機材や費用などかなり大変だ(16TBディスク12台だけで2200ドル)。データ冗長化やサーバーハードウェアまで考えると、だいたい5000ドルほどで人類が蓄積してきた主要な科学知識全体をキャッシュできることになる。興味深いのは、こうした保存庫の容量が最近ほとんど増えていないことだ。scihub も2022年以降更新が止まっているし、最近増えた低品質な学術誌も重要性は低いと思う
図書館でシリーズ本を読んでいたら、3巻や4巻がなくてあきれた。たぶん紛失か破損だろう。自分で古本屋で買って寄贈しようかとも思ったが、新版は値段も上がっていて雰囲気も違うので、悩んだ末にやめた。だからAnna’s Archiveで手に入れた。シリーズ最後の数巻も図書館にはなかった(誰かが借りて返さなかったのか、そもそも最初からなかったのかもしれない)。自分はただこの作家の全作品を読み切りたかっただけで、本当に好きな本は紙の本とオーディオブックの両方を二度も買っている。昔は友人たちが本の収集に夢中になっていたが、自分は読み返す本だけを残す派だ。揃えたい欲が出ても、図書館や電子書籍で済ませる。年を取るほど、本と自分の有限さを実感する。引退して週に3~4冊読んでも、一生かかっても読み切れない量の本を積んでいる。新刊も新しい声も次々に現れる。最後に『Dune』を読み返して古本屋に出したが、また読むならたぶんオーディオブック版だろう
「Anna’s ArchiveがIA Controlled Digital Lendingから数千万ファイルを入手した」という部分は、全体的に見るとあまり助けにならないと思う
これは法廷で扱われることになりそうな、かなり曖昧な言及だ
Anna's Archiveが無責任に『こんなこともした』と自慢しているのは、かなり利己的な行動に見える。何の結果も考えていない
なぜそれが問題なのかわからない。もともと本を集めるのが彼らの目的だろう
Anna's Archiveのような場所は、インターネットに残された最後の良いものの一つだと思う
どうやって資金を調達し、どうやってサイトを生き残らせているのか気になる。莫大な資金力を持つ企業や国家がこのサイトを消したがっていそうだ
最後の良いものの一つだという点には同意する(最後だとしても最低ではない)
このプロジェクトチームに賛辞を送りたい。ここ1年ほどでUIが改善されたようで印象的だ。残る課題は、サービスが継続してアクセス可能なまま生き残ることだろう。どれほどの努力が必要なのか気になるし、これほど攻撃される状況でどうやって耐えているのかも気になる
ちなみにこのサイトもかなり有用に使われている https://open-slum.org/
サイトにアクセスできないので、どんな内容があって、なぜ有用なのか説明してほしい
このサイトは Uptime Kuma のインスタンスのように見える。Uptime Kuma はオープンソースプロジェクトで、監視とダッシュボードに強みがある https://github.com/louislam/uptime-kuma
市民はAnna's Archiveのようなものを支持するのに、政府は反対するというのが、なんだか面白い。エリート主義の一つの証拠に見える
面白くも不思議でもない。著者(作家)という当事者の視点が抜けている。Anna’s Archiveに本を書いた作家たちがどれほど満足しているのか気になる。個人的には、社会全体がもっと本を読むようになるのは助けになると思うので、Anna’s Archive や sci-hub には肯定的だ。ただ、現行システムの中では報酬や法的問題など、いろいろ考えるべき点はある
作家がどう思うのか気になる
Anna's Archiveや似たようなサイトに、New York Times 全紙(1930年以前版)の完全なPDFセットや、他の新聞があるのか気になる。今は Newspapers.com などで、パブリックドメイン資料でさえ閉じたウェブサイトに閉じ込められていたり、昔のGoogleニュース/新聞のように完全に検索不能だったりする。AI学習データ確保競争のおかげで、既存の有料/放棄サイトよりもっと開かれていて、AIベースの探索機能を備えた新しいアーカイブが生まれてほしい。いくつかは Internet Archive などで入手できるが、本当に必要なのはAIベースの検索機能だ