2 ポイント 投稿者 GN⁺ 2023-11-06 | 1件のコメント | WhatsAppで共有
  • Anna’s Archive は、匿名の活動家たちが運営する非営利のオンライン・シャドーライブラリのメタ検索エンジン。さまざまな書籍リソースへのアクセスを提供
  • 同団体は、750万冊 / 350TBに及ぶ中国語ノンフィクション書籍コレクションを取得した(Library Genesisよりも多い)
  • このコレクションについて高品質なOCRおよびテキスト抽出を提供する見返りとして、そのLLM企業に1年間の独占的な先行アクセスを提供する予定
  • このコレクションは、SuperStar Digital Library Groupが構築した大規模なスキャン書籍データベースであり、大学や図書館にデジタル提供されていたDuxiuから取得されたもの
  • コレクションの総ファイルサイズは、現在の形で約359TB
  • 抽出されたテキストは大規模言語モデル(LLM)の学習に使用され、Archiveは、このコレクションが中国語であるにもかかわらず、英語LLMの学習にも有用である可能性があると考えている
  • Archiveは、この協力を通じてユーザーに高度な検索機能を提供したいとしている
  • 協力相手がパイプライン全体のコードを共有する意思があるなら、Archiveは独占アクセス期間の延長にも前向き

1件のコメント

 
GN⁺ 2023-11-06
Hacker Newsの意見
  • このコレクションは2015年ごろに始まったとみられ、約400万冊の書籍を含み、その多くは重複している。
  • コレクションの出所はDuXiuという企業で、2000年代初頭から中国の図書館と協力して所蔵資料をスキャンしていた。
  • このコレクションには、翻訳された西洋の教科書、政治的プロパガンダ、そして極端な検閲以前に出版された文学・歴史書が混在している。
  • 中国のテック企業はこのコレクションにアクセスできるが、著作権や政治的リスクのために利用しない可能性がある。
  • サイト運営者は賢いが軽率だと見なされており、潜在的な法的責任への懸念が示された。
  • DuXiuはリソースとして非常に高く評価されており、1年以内に完全検索可能になることへの期待がある。
  • 中国のすべての書籍が中央集約されることは、AI訓練に有利だと考えられている。
  • このコレクションがbooks3の40倍の規模であることは、著作権や英語圏以外の学術研究の可能性についての疑問を提起している。
  • 情報密度の高い中国語におけるトークナイゼーション効率についての推測がある。
  • Language Models (LLMs) が、言語や問い合わせ言語に関係なく知識をエンコードできるのかという疑問が提起された。
  • このコレクションをめぐって、大手中国企業が競争のためにOpenAIを上回る入札をするのではないかという期待がある。
  • LLMsはインターフェースとして機能し、中国語情報へのアクセスを容易にし得る。
  • 中国文化におけるコピーへの反応は異なると見なされており、しばしばそれを敬意の表れと捉える傾向がある。