- LLaMA、Alpaca、Vicunaのような準オープンモデルではなく、再現可能で完全にオープンな言語モデルを作るためのプロジェクト
- 3つの構成要素
- 高品質で広いカバレッジを持つ事前学習データ
- このデータを基に大規模学習されたベースモデル
- ベースモデルを安全かつ実用的にするためのインストラクションチューニング用データとモデル
- 最初のコンポーネントとして RedPajama-Data-1T データセットを公開
- LLaMA論文で説明されたレシピに従って生成した、1.2兆トークンで構成される完全オープンなデータセット
- HuggingFace からダウンロード可能。全体で 5TB(3TB に圧縮して配布)
- 7つのデータ断片で構成 : それぞれ前処理とフィルタリングを行い、LLaMA論文と近い件数で構成(前処理方法およびフィルタも GitHub で公開)
- CommonCrawl (878b) - Webクロールデータ
- C4 (175b) - Colossal, Cleaned version of Common Crawl
- GitHub (59b) - ライセンスと品質でフィルタリングされた GitHub のデータ
- arXiv (28b) - 科学論文と記事(boilerplate 除去)
- Books (26b) - コンテンツ類似性に基づいて重複除去した公開書籍コーパス
- Wikipedia (24b) - Wikipedia の一部ページ(boilerplate 除去)
- StackExchange (20b) - StackExchange の一部ページ(boilerplate 除去)
- 次の段階は強力なベースモデルを訓練すること。数週間以内に公開予定
- 命令チューニングは OpenChatkit を通じて提供されたものを使用する予定
1件のコメント
OpenChatKit 公開 - ChatGPTを実装できるオープンソースプロジェクト