The General Index - 1億超のジャーナルのn-gramインデックスを無料公開
(archive.org)-
研究者 Carl Malamud が、有料論文を含む107,233,728件のジャーナルから SpaCy で抽出した n-gram インデックスを公開
-
全文ではなく、1語から最大5語までの文章スニペットのみを含むインデックスのため、著作権上の制限を回避
-
さまざまな研究分野で利用できるよう、ウェブアーカイブで無料公開
→ 例)特定の化学物質が論文内で何回使われたか
- 3つのテーブルで構成
→ 3,500億件の n-gram とジャーナル id
→ 197億件のキーワードとジャーナル id
→ ジャーナル id とメタデータ:論文タイトル、著者、DOI(論文の固有識別子)
- カタログは圧縮ファイルで 5TB、展開時は 38TB
1件のコメント
Natureの紹介記事
実際の全文ではなくインデックスだけを公開することで、著作権問題を独特な形で回避しているわけですね。
Natureの記事にもありますが、インデックスを生成したCarlがどうやって元の有料論文を入手したのかだけが問題になり、このインデックス自体を研究に活用することは問題なさそうです。
これを見てAaron Swartzを思い出しましたが、資料の下部にも明記されていますね。
実際にCarl MalamudがAaron Swartz Memorialで講演した動画もあわせてご覧ください。