RedPajama - LLaMAデータセットを再構築するオープンソースプロジェクト

xguru · 2023-04-19T10:03:01+09:00

LLaMA、Alpaca、Vicunaのような準オープンモデルではなく、再現可能で完全にオープンな言語モデルを作るためのプロジェクト 3つの構成要素高品質で広いカバレッジを持つ事前学習データこのデータを基に大規模学習されたベースモデルベースモデルを安全かつ実用的にするためのインストラクションチューニング用データとモデル最初のコンポーネントとして RedPajama-Data-1T データセットを公開 LLaMA論文で説明されたレシピに従って生成した、1.2兆トークンで構成される完全オープンなデータセット HuggingFace からダウンロード可能。全体で 5TB（3TB に圧縮して配布） 7つのデータ断片で構成 : それぞれ前処理とフィルタリングを行い、LLaMA論文と近い件数で構成（前処理方法およびフィルタも GitHub で公開） CommonCrawl (878b) - Webクロールデータ C4 (175b) - Colossal, Cleaned version of Common Crawl GitHub (59b) - ライセンスと品質でフィルタリングされた GitHub のデータ arXiv (28b) - 科学論文と記事（boilerplate 除去） Books (26b) - コンテンツ類似性に基づいて重複除去した公開書籍コーパス Wikipedia (24b) - Wikipedia の一部ページ（boilerplate 除去） StackExchange (20b) - StackExchange の一部ページ（boilerplate 除去）次の段階は強力なベースモデルを訓練すること。数週間以内に公開予定命令チューニングは OpenChatkit を通じて提供されたものを使用する予定

(together.xyz)

14 ポイント投稿者 xguru 2023-04-19 | 1件のコメント | WhatsAppで共有

LLaMA、Alpaca、Vicunaのような準オープンモデルではなく、再現可能で完全にオープンな言語モデルを作るためのプロジェクト
3つの構成要素
- 高品質で広いカバレッジを持つ事前学習データ
- このデータを基に大規模学習されたベースモデル
- ベースモデルを安全かつ実用的にするためのインストラクションチューニング用データとモデル
最初のコンポーネントとして RedPajama-Data-1T データセットを公開
- LLaMA論文で説明されたレシピに従って生成した、1.2兆トークンで構成される完全オープンなデータセット
- HuggingFace からダウンロード可能。全体で 5TB（3TB に圧縮して配布）
- 7つのデータ断片で構成 : それぞれ前処理とフィルタリングを行い、LLaMA論文と近い件数で構成（前処理方法およびフィルタも GitHub で公開）
  - CommonCrawl (878b) - Webクロールデータ
  - C4 (175b) - Colossal, Cleaned version of Common Crawl
  - GitHub (59b) - ライセンスと品質でフィルタリングされた GitHub のデータ
  - arXiv (28b) - 科学論文と記事（boilerplate 除去）
  - Books (26b) - コンテンツ類似性に基づいて重複除去した公開書籍コーパス
  - Wikipedia (24b) - Wikipedia の一部ページ（boilerplate 除去）
  - StackExchange (20b) - StackExchange の一部ページ（boilerplate 除去）
次の段階は強力なベースモデルを訓練すること。数週間以内に公開予定
命令チューニングは OpenChatkit を通じて提供されたものを使用する予定

1件のコメント

xguru 2023-04-19

OpenChatKit 公開 - ChatGPTを実装できるオープンソースプロジェクト

RedPajama - LLaMAデータセットを再構築するオープンソースプロジェクト

関連記事

1件のコメント