13 ポイント 投稿者 xguru 2021-10-28 | 1件のコメント | WhatsAppで共有
  • 研究者 Carl Malamud が、有料論文を含む107,233,728件のジャーナルから SpaCy で抽出した n-gram インデックスを公開

  • 全文ではなく、1語から最大5語までの文章スニペットのみを含むインデックスのため、著作権上の制限を回避

  • さまざまな研究分野で利用できるよう、ウェブアーカイブで無料公開

→ 例)特定の化学物質が論文内で何回使われたか

  • 3つのテーブルで構成

→ 3,500億件の n-gram とジャーナル id

→ 197億件のキーワードとジャーナル id

→ ジャーナル id とメタデータ:論文タイトル、著者、DOI(論文の固有識別子)

  • カタログは圧縮ファイルで 5TB、展開時は 38TB

1件のコメント

 
xguru 2021-10-28

Natureの紹介記事

実際の全文ではなくインデックスだけを公開することで、著作権問題を独特な形で回避しているわけですね。

Natureの記事にもありますが、インデックスを生成したCarlがどうやって元の有料論文を入手したのかだけが問題になり、このインデックス自体を研究に活用することは問題なさそうです。

これを見てAaron Swartzを思い出しましたが、資料の下部にも明記されていますね。

実際にCarl MalamudがAaron Swartz Memorialで講演した動画もあわせてご覧ください。