AI学習用テキストデータ集
(the-eye.eu)OpenAIのGPT-3が使用していたデータに似た資料
-
books3.tar.gz : 37GB、約197,000冊の書籍をtxtとして抽出したもの
-
github.tar.gz : 106G、GitHubのさまざまなrepoを集めたもの
-
stackexchange_dataset.tar : 34G、Stack ExchangeのQ&A資料
そのほか多様な資料が多数
OpenAIのGPT-3が使用していたデータに似た資料
books3.tar.gz : 37GB、約197,000冊の書籍をtxtとして抽出したもの
github.tar.gz : 106G、GitHubのさまざまなrepoを集めたもの
stackexchange_dataset.tar : 34G、Stack ExchangeのQ&A資料
そのほか多様な資料が多数
2件のコメント
少し唐突ですが、ああいう学習用アーカイブやアーカイブ群を見ていると、デジタル世界では忘れられる自由はないのだと改めて気づかされる気がします。
この資料の説明は、以下のTwitterスレッドを参照してください。
https://threadreaderapp.com/thread/1320282149329784833.html