5 ポイント 投稿者 xguru 2023-11-09 | 1件のコメント | WhatsAppで共有
  • 1兆トークンだったRedPajama-1Tと比べてはるかに大規模
  • 84件のCommonCrawlダンプから、100兆個を超える生トークンを含む1,000億件以上のテキスト文書
  • 重複除去された30兆トークンのサブセットに対して、事前計算済みの最も広く使われている40種類以上の品質アノテーションを含む
  • 5言語: 英語、フランス語、スペイン語、ドイツ語、イタリア語
  • すべてのデータ処理スクリプトはオープンソースでGitHubで利用可能、すべてのデータはHuggingFaceで利用可能