ColossalChat - ChatGPTを複製するためのRLHFパイプラインのオープンソースソリューション
(medium.com/@yangyou_berkeley)- LLaMAモデルをベースに構築
- Supervisedデータ収集
- Supervisedファインチューニング
- Rewardモデル学習
- Reinforcement Learningファインチューニング
- 含まれる内容
- オンラインで動作するインタラクティブデモ
- 7B/13Bモデルを含む完全なRLHF学習コードをオープンソース化
- 中国語/英語で構成された104kのバイリンガルデータセット
- 7Bモデルの4-bit量子化。必要なGPUメモリは4GBのみ
- モデル重みを含み、シングルサーバーで簡単に再現可能
- 大規模モデル/データセット/最適化なども継続して追加予定
まだコメントはありません。