ColossalChat - ChatGPTを複製するためのRLHFパイプラインのオープンソースソリューション

xguru · 2023-03-31T11:32:02+09:00

LLaMAモデルをベースに構築 Supervisedデータ収集 Supervisedファインチューニング Rewardモデル学習 Reinforcement Learningファインチューニング含まれる内容オンラインで動作するインタラクティブデモ 7B/13Bモデルを含む完全なRLHF学習コードをオープンソース化中国語/英語で構成された104kのバイリンガルデータセット 7Bモデルの4-bit量子化。必要なGPUメモリは4GBのみモデル重みを含み、シングルサーバーで簡単に再現可能大規模モデル/データセット/最適化なども継続して追加予定

(medium.com/@yangyou_berkeley)

10 ポイント投稿者 xguru 2023-03-31 | まだコメントはありません。 | WhatsAppで共有

LLaMAモデルをベースに構築
- Supervisedデータ収集
- Supervisedファインチューニング
- Rewardモデル学習
- Reinforcement Learningファインチューニング
含まれる内容
- オンラインで動作するインタラクティブデモ
- 7B/13Bモデルを含む完全なRLHF学習コードをオープンソース化
- 中国語/英語で構成された104kのバイリンガルデータセット
- 7Bモデルの4-bit量子化。必要なGPUメモリは4GBのみ
- モデル重みを含み、シングルサーバーで簡単に再現可能
- 大規模モデル/データセット/最適化なども継続して追加予定

ColossalChat - ChatGPTを複製するためのRLHFパイプラインのオープンソースソリューション

関連記事

まだコメントはありません。