7 ポイント 投稿者 xguru 2023-10-19 | まだコメントはありません。 | WhatsAppで共有
  • LLMの学習向けの627M(6.27億)個のテーブルと867B(8670億)個のトークンからなるデータセット
    • Webページ、Excel、CSV、SQLiteなどから抽出されたテーブルを含む
    • ファイル名、ソースURL、各テーブル周辺のテキストなど、豊富なコンテキストデータ
  • 表形式データの処理に対する、より良い理解と技術構築に役立つことを目指す
  • 6500億行、最大80億列
  • 最大のテーブルは3200万行
  • 最も幅広いテーブルは300万列

まだコメントはありません。

まだコメントはありません。