TabLib - 867B Tabular Tokenデータセット
(approximatelabs.com)- LLMの学習向けの627M(6.27億)個のテーブルと867B(8670億)個のトークンからなるデータセット
- Webページ、Excel、CSV、SQLiteなどから抽出されたテーブルを含む
- ファイル名、ソースURL、各テーブル周辺のテキストなど、豊富なコンテキストデータ
- 表形式データの処理に対する、より良い理解と技術構築に役立つことを目指す
- 6500億行、最大80億列
- 最大のテーブルは3200万行
- 最も幅広いテーブルは300万列
まだコメントはありません。