- Anna’s Archive は、匿名の活動家たちが運営する非営利のオンライン・シャドーライブラリのメタ検索エンジン。さまざまな書籍リソースへのアクセスを提供
- 同団体は、750万冊 / 350TBに及ぶ中国語ノンフィクション書籍コレクションを取得した(Library Genesisよりも多い)
- このコレクションについて高品質なOCRおよびテキスト抽出を提供する見返りとして、そのLLM企業に1年間の独占的な先行アクセスを提供する予定
- このコレクションは、SuperStar Digital Library Groupが構築した大規模なスキャン書籍データベースであり、大学や図書館にデジタル提供されていたDuxiuから取得されたもの
- コレクションの総ファイルサイズは、現在の形で約359TB
- 抽出されたテキストは大規模言語モデル(LLM)の学習に使用され、Archiveは、このコレクションが中国語であるにもかかわらず、英語LLMの学習にも有用である可能性があると考えている
- Archiveは、この協力を通じてユーザーに高度な検索機能を提供したいとしている
- 協力相手がパイプライン全体のコードを共有する意思があるなら、Archiveは独占アクセス期間の延長にも前向き
1件のコメント
Hacker Newsの意見