15 ポイント 投稿者 xguru 2020-10-26 | 2件のコメント | WhatsAppで共有

OpenAIのGPT-3が使用していたデータに似た資料

  • books3.tar.gz : 37GB、約197,000冊の書籍をtxtとして抽出したもの

  • github.tar.gz : 106G、GitHubのさまざまなrepoを集めたもの

  • stackexchange_dataset.tar : 34G、Stack ExchangeのQ&A資料

そのほか多様な資料が多数

2件のコメント

 
ffdd270 2020-10-27

少し唐突ですが、ああいう学習用アーカイブやアーカイブ群を見ていると、デジタル世界では忘れられる自由はないのだと改めて気づかされる気がします。

 
xguru 2020-10-26

この資料の説明は、以下のTwitterスレッドを参照してください。

https://threadreaderapp.com/thread/1320282149329784833.html