AI2 Dolma: 言語モデル向け3Tトークンのオープンコーパス
(blog.allenai.org)- Allen Institute for AI が作成するデータセット
- Webコンテンツ、学術出版物、コード、書籍、百科事典資料を組み合わせたもの
- 3兆(Trillion)トークンで、これまで公開された中で最大規模のデータセット
- HuggingFace Hub からダウンロード可能
- AI2 ImpACT ライセンス(Artifact の Risk に応じて Low/Medium/High に区分)
まだコメントはありません。