RedPajama v2 - LLM学習のための30兆(30T)トークンのデータセット
(together.ai)- 1兆トークンだったRedPajama-1Tと比べてはるかに大規模
- 84件のCommonCrawlダンプから、100兆個を超える生トークンを含む1,000億件以上のテキスト文書
- 重複除去された30兆トークンのサブセットに対して、事前計算済みの最も広く使われている40種類以上の品質アノテーションを含む
- 5言語: 英語、フランス語、スペイン語、ドイツ語、イタリア語
- すべてのデータ処理スクリプトはオープンソースでGitHubで利用可能、すべてのデータはHuggingFaceで利用可能
1件のコメント
RedPajama - LLaMAデータセットを再構築するオープンソースプロジェクト
RedPajama 3B、7Bモデル公開
RedPajama、HELMベンチマークで公開された他の7B LLMモデルより優れた性能を持つ7Bモデルを公開