14 ポイント 投稿者 xguru 2023-04-19 | 1件のコメント | WhatsAppで共有
  • LLaMA、Alpaca、Vicunaのような準オープンモデルではなく、再現可能で完全にオープンな言語モデルを作るためのプロジェクト
  • 3つの構成要素
    • 高品質で広いカバレッジを持つ事前学習データ
    • このデータを基に大規模学習されたベースモデル
    • ベースモデルを安全かつ実用的にするためのインストラクションチューニング用データとモデル
  • 最初のコンポーネントとして RedPajama-Data-1T データセットを公開
    • LLaMA論文で説明されたレシピに従って生成した、1.2兆トークンで構成される完全オープンなデータセット
    • HuggingFace からダウンロード可能。全体で 5TB(3TB に圧縮して配布)
    • 7つのデータ断片で構成 : それぞれ前処理とフィルタリングを行い、LLaMA論文と近い件数で構成(前処理方法およびフィルタも GitHub で公開)
      • CommonCrawl (878b) - Webクロールデータ
      • C4 (175b) - Colossal, Cleaned version of Common Crawl
      • GitHub (59b) - ライセンスと品質でフィルタリングされた GitHub のデータ
      • arXiv (28b) - 科学論文と記事(boilerplate 除去)
      • Books (26b) - コンテンツ類似性に基づいて重複除去した公開書籍コーパス
      • Wikipedia (24b) - Wikipedia の一部ページ(boilerplate 除去)
      • StackExchange (20b) - StackExchange の一部ページ(boilerplate 除去)
  • 次の段階は強力なベースモデルを訓練すること。数週間以内に公開予定
  • 命令チューニングは OpenChatkit を通じて提供されたものを使用する予定