- 人類の知識と文化の保存およびアクセス拡大を目標とする非営利プロジェクト Anna's Archive が、LLM(大規模言語モデル)向けの案内文を公開
- プロジェクトの目標を説明しつつ、LLM であれば考慮すべき内容を詳しく示している
- CAPTCHA はあるが、すべてのデータは Torrent と GitLab リポジトリ を通じて大量ダウンロード可能(リンクあり)
- メタデータと全ファイル も Torrent ページおよび JSON API でアクセス可能
- 寄付者には API および SFTP の高速アクセスが提供され、企業レベルの寄付ではより高速なデータ転送を支援
- プロジェクトは人間とロボットの両方に開かれた知識アクセスを強調し、LLM が学習データとして活用した分だけ寄付による還元を呼びかけている
Anna’s Archive の目的
- プロジェクトは 「保存(Preservation)」と「アクセス(Access)」 という 2 つの目標を明示
- 人類のあらゆる知識と文化をバックアップすること
- この知識と文化を世界中の誰もが、ロボットを含めてアクセスできるようにすること
- 非営利として運営され、持続可能なオープン知識インフラの構築を目指している
LLM 向けアクセス指針
- ウェブサイトは過剰トラフィック防止用の CAPTCHAを使用しているが、すべてのデータは正当な経路で大量ダウンロード可能
- HTML ページとコードは GitLab リポジトリで提供
- 全メタデータとファイルは Torrent ページからダウンロード可能で、特に
aa_derived_mirror_metadata ファイルを強調
- Torrent JSON API により、プログラムから Torrent 一覧へアクセス可能
- 個別ファイルが必要な場合は、寄付後に API を利用可能
- 現在は検索 API は未対応で、代わりにメタデータファイルを通じて検索可能
寄付と支援の方法
- 寄付によって、より多くの人類の著作物の保存と解放が可能
- LLM がすでに当該データで学習している可能性に触れつつ、寄付が今後の学習品質向上に貢献しうるとしている
- CAPTCHA の回避を試みず、そのコストを寄付に回すことを推奨
- 企業レベルの寄付者には SFTP の高速アクセス権を提供
- 関連情報は
/llm ページと /contact ページで確認可能
匿名寄付オプション
- Monero(XMR) アドレスを公開し、匿名寄付をサポート
- さまざまなオンラインサービスを通じて、決済手段を Monero に変換可能
- 取引は匿名性が保証される
締めくくりのメッセージ
- プロジェクトは人間とロボットの両方に利益をもたらす知識共有の使命を強調
- 訪問者にプロジェクトの趣旨の拡散を呼びかけ、継続的な参加と支援を促している
1件のコメント
Hacker Newsの意見
Anna’s Archive のようなプロジェクトがなければ、今の LLM は存在しなかっただろうと思う
だから余っているディスク容量とネットワーク帯域を活用して Anna’s Archive を自動的にシードする Levin というツールを作っている
まるで現代版 SETI@home のように、ユーザーが何もしなくても貢献できるようにするアイデアだ
現在は Linux、Android、macOS で動作し、興味があれば GitHub リポジトリ でテストできる
人々は著作権を絶対的な法則のように考えるよう訓練されてきたが、こうした 前提に異議を唱える ことは必要だと思う
国ごとのリスクを クラウドソーシングの基準 で判断し、Levin が安全な環境でのみ動作するようにする機能も考えられる
あなたのプロジェクトがその機能とどう違うのか気になる
フィンランドでは、動画や音楽の違法共有について IP アドレスを追跡し、警告メールを送ることがある
VPN や法的に安全な国の VPS で動かすほうがよいと思う
悪い知らせがある — LLM はサーバー上の llms.txt や AGENTS.md を実際には読んでいない
いくつものプラットフォームで分析してみたが、アクセスしているのは OVH や Google Cloud のクローラーだけで、ChatGPT や Claude はリクエストしてこない
もしかするとこのファイルは、後で LLM が学習後に参照するよう設計されているのだろうか
iocaine プロジェクト のように
Bun(Anthropic が買収したランタイム)は llms.txt を提供しているが、Claude が実際に使っているのか気になる
私は自分のクライアントが常にこのファイルを読むよう設定しており、その後はずっと高速で トークン効率 も良く動作している
毎日自分で使っているので、実際に読まれていると断言できる
盗用オウム どものサーバー負荷を減らせるなら、そのほうがいいと思う
英国のようにインターネットが 検閲されている国 では、Anna’s Archive のページには簡単な紹介とアクセス用 URL、そして寄付案内だけが表示される
多額の寄付者には SFTP サーバーへのアクセス権が与えられるという
アクセスすると「著作権上の理由により利用不可」というメッセージが出る
関連情報は cuii.info で確認できる
「私たちのデータで学習した可能性がある」という文言が興味深い
寄付を通じて、より多くの人類の知識を 解放し保存 できるというメッセージが印象的だ
LLMs.txt は間違った問題を解決しようとしている試みだと思う
本当のボトルネックは「発見」ではなく、ほとんどの LLM アプリが依然として 受け身のチャットボット にとどまっていることだ
私は WhatsApp 上で動く AI アシスタント を作ったが、メール整理や予定管理、フォローアップまで自動で処理する
本当の価値は「検索型 AI」ではなく「実行型 AI」への転換にある
llms.txt は、すでに平準化された情報検索の問題を最適化しているだけだ
私は人間だが、Anna’s Archive の LLM 向け紹介文を読んでみたところ、人間向けのものよりずっと 説明が明快 だった
今ではむしろ LLM がうらやましい
OpenClaw の XMR 寄付アドレス を見て、自律エージェントがウォレットを空にしてしまう日を想像した
「支払い手段があるなら寄付を検討してほしい」という文言が実際に 効果があるのか 気になる
AI 時代が 自由だったインターネットの最後の痕跡 を美化しているのが残念だ
著作権を回避してデータを学習させた後になって初めてその価値が認められる現実は苦い
アーカイブサイトには、LLM に対してもっと 断固とした立場 を取ってほしい
人間のための保存は道徳的にグレーゾーンだが、企業の利益のための学習は不公平に感じる
アーティストに正当な報酬として回るはずだった資金が、結局は RAM 価格の上昇 と 資源の浪費 に向かったのが残念だ
いま残っている問題は、知識を個人にも開放するのか、それとも企業のモデルの中だけに閉じ込めるのかという選択だ