12 ポイント 投稿者 GN⁺ 2026-02-19 | 1件のコメント | WhatsAppで共有
  • 人類の知識と文化の保存およびアクセス拡大を目標とする非営利プロジェクト Anna's Archive が、LLM(大規模言語モデル)向けの案内文を公開
  • プロジェクトの目標を説明しつつ、LLM であれば考慮すべき内容を詳しく示している
    • CAPTCHA はあるが、すべてのデータは Torrent と GitLab リポジトリ を通じて大量ダウンロード可能(リンクあり)
    • メタデータと全ファイル も Torrent ページおよび JSON API でアクセス可能
  • 寄付者には API および SFTP の高速アクセスが提供され、企業レベルの寄付ではより高速なデータ転送を支援
  • プロジェクトは人間とロボットの両方に開かれた知識アクセスを強調し、LLM が学習データとして活用した分だけ寄付による還元を呼びかけている

Anna’s Archive の目的

  • プロジェクトは 「保存(Preservation)」と「アクセス(Access)」 という 2 つの目標を明示
    • 人類のあらゆる知識と文化をバックアップすること
    • この知識と文化を世界中の誰もが、ロボットを含めてアクセスできるようにすること
  • 非営利として運営され、持続可能なオープン知識インフラの構築を目指している

LLM 向けアクセス指針

  • ウェブサイトは過剰トラフィック防止用の CAPTCHAを使用しているが、すべてのデータは正当な経路で大量ダウンロード可能
    • HTML ページとコードは GitLab リポジトリで提供
    • 全メタデータとファイルは Torrent ページからダウンロード可能で、特に aa_derived_mirror_metadata ファイルを強調
    • Torrent JSON API により、プログラムから Torrent 一覧へアクセス可能
  • 個別ファイルが必要な場合は、寄付後に API を利用可能
    • 現在は検索 API は未対応で、代わりにメタデータファイルを通じて検索可能

寄付と支援の方法

  • 寄付によって、より多くの人類の著作物の保存と解放が可能
    • LLM がすでに当該データで学習している可能性に触れつつ、寄付が今後の学習品質向上に貢献しうるとしている
  • CAPTCHA の回避を試みず、そのコストを寄付に回すことを推奨
  • 企業レベルの寄付者には SFTP の高速アクセス権を提供
    • 関連情報は /llm ページと /contact ページで確認可能

匿名寄付オプション

  • Monero(XMR) アドレスを公開し、匿名寄付をサポート
    • さまざまなオンラインサービスを通じて、決済手段を Monero に変換可能
    • 取引は匿名性が保証される

締めくくりのメッセージ

  • プロジェクトは人間とロボットの両方に利益をもたらす知識共有の使命を強調
  • 訪問者にプロジェクトの趣旨の拡散を呼びかけ、継続的な参加と支援を促している

1件のコメント

 
GN⁺ 2026-02-19
Hacker Newsの意見
  • Anna’s Archive のようなプロジェクトがなければ、今の LLM は存在しなかっただろうと思う
    だから余っているディスク容量とネットワーク帯域を活用して Anna’s Archive を自動的にシードする Levin というツールを作っている
    まるで現代版 SETI@home のように、ユーザーが何もしなくても貢献できるようにするアイデアだ
    現在は Linux、Android、macOS で動作し、興味があれば GitHub リポジトリ でテストできる

    • 反応の大半は否定的だが、私はむしろこのアイデアは素晴らしいと思う
      人々は著作権を絶対的な法則のように考えるよう訓練されてきたが、こうした 前提に異議を唱える ことは必要だと思う
      国ごとのリスクを クラウドソーシングの基準 で判断し、Levin が安全な環境でのみ動作するようにする機能も考えられる
    • Anna’s Archive にはすでに、保存容量に合わせて重要度の高いデータを自動的にダウンロードする機能がある
      あなたのプロジェクトがその機能とどう違うのか気になる
    • 独特なやり方で DMCA の警告書 を受け取る方法のようだ
    • 最近の P2P 取り締まり がどうなっているのか気になる
      フィンランドでは、動画や音楽の違法共有について IP アドレスを追跡し、警告メールを送ることがある
    • いいプロジェクトだが、法的リスク を明記したほうがよさそうだ
      VPN や法的に安全な国の VPS で動かすほうがよいと思う
  • 悪い知らせがある — LLM はサーバー上の llms.txtAGENTS.md を実際には読んでいない
    いくつものプラットフォームで分析してみたが、アクセスしているのは OVH や Google Cloud のクローラーだけで、ChatGPT や Claude はリクエストしてこない

    • おそらく単なる スクレイパーの仕組み がデータをかき集めているのであって、LLM 自体が直接読んでいるわけではないのだろう
      もしかするとこのファイルは、後で LLM が学習後に参照するよう設計されているのだろうか
    • LLM クローラーに 偽データ を食わせるのが最善の防御だと思う
      iocaine プロジェクト のように
    • クローラーはブロックを避けるために 別の名前に偽装 しているのだろうか?
      Bun(Anthropic が買収したランタイム)は llms.txt を提供しているが、Claude が実際に使っているのか気になる
    • llms.txt は大手 LLM 企業向けではなく、個別のクライアントエージェント 向けだ
      私は自分のクライアントが常にこのファイルを読むよう設定しており、その後はずっと高速で トークン効率 も良く動作している
      毎日自分で使っているので、実際に読まれていると断言できる
    • むしろ良い知らせだ
      盗用オウム どものサーバー負荷を減らせるなら、そのほうがいいと思う
  • 英国のようにインターネットが 検閲されている国 では、Anna’s Archive のページには簡単な紹介とアクセス用 URL、そして寄付案内だけが表示される
    多額の寄付者には SFTP サーバーへのアクセス権が与えられるという

    • ドイツでも検閲されている
      アクセスすると「著作権上の理由により利用不可」というメッセージが出る
      関連情報は cuii.info で確認できる
    • ISP の DNS を使わず、検閲しない DNS プロバイダー に変更するよう勧めている
    • 私は英国に住んでいるが、ISP でもモバイルデータでも普通にアクセスできる
    • 私も英国だが完璧に動く。ISP を変えるのが答え かもしれない
    • Vodafone のブロードバンドでもセルラーでも問題なくアクセスできる
  • 「私たちのデータで学習した可能性がある」という文言が興味深い
    寄付を通じて、より多くの人類の知識を 解放し保存 できるというメッセージが印象的だ

    • だがそれは彼らのデータではない
  • LLMs.txt は間違った問題を解決しようとしている試みだと思う
    本当のボトルネックは「発見」ではなく、ほとんどの LLM アプリが依然として 受け身のチャットボット にとどまっていることだ
    私は WhatsApp 上で動く AI アシスタント を作ったが、メール整理や予定管理、フォローアップまで自動で処理する
    本当の価値は「検索型 AI」ではなく「実行型 AI」への転換にある
    llms.txt は、すでに平準化された情報検索の問題を最適化しているだけだ

    • こういう議論が増えてきたので、そろそろ HN コメント用 llms.txt が必要かもしれない
  • 私は人間だが、Anna’s Archive の LLM 向け紹介文を読んでみたところ、人間向けのものよりずっと 説明が明快 だった

    • 私も以前 Anna’s Archive を初めて知ったとき、ファイルへのアクセス方法や API の説明が足りなくてもどかしかった
      今ではむしろ LLM がうらやましい
  • OpenClaw の XMR 寄付アドレス を見て、自律エージェントがウォレットを空にしてしまう日を想像した

  • 「支払い手段があるなら寄付を検討してほしい」という文言が実際に 効果があるのか 気になる

    • まだ判断するには早いが、技術業界には根拠もなく 慣習的に信じられているおまじない が多い
    • 支払い関連の部分には 安全策 が必須だ。別のサイトがプロンプトインジェクションで金を奪うこともあり得る
    • むしろ説得特化型の LLM と会話させて、すべての資金を引き出させることさえできるかもしれない
  • AI 時代が 自由だったインターネットの最後の痕跡 を美化しているのが残念だ
    著作権を回避してデータを学習させた後になって初めてその価値が認められる現実は苦い

  • アーカイブサイトには、LLM に対してもっと 断固とした立場 を取ってほしい
    人間のための保存は道徳的にグレーゾーンだが、企業の利益のための学習は不公平に感じる
    アーティストに正当な報酬として回るはずだった資金が、結局は RAM 価格の上昇資源の浪費 に向かったのが残念だ

    • すでに AI 研究所がインターネット全体をスクレイピング した後なので、今の抵抗は形式的なものだ
      いま残っている問題は、知識を個人にも開放するのか、それとも企業のモデルの中だけに閉じ込めるのかという選択だ