Open-LLaMa - LLM 作成向けの完全なトレーニングパイプライン
(github.com/s-JoL)- データセット生成からトークン化、プロンプトチューニング、LoRA および RLHF まで、全体のパイプラインを構成したオープンソース
- 事前学習済みの Open-LLama-V2-pretrain モデルも Hugging Face で公開
- FastChat の評価方法によれば、GPT-3.5 と比較して約 89% の性能を示すとのこと(中国語の質問に対して)
- 学習速度は 3620 トークン/s で、オリジナルの LLama の 3370 よりやや高速(7B モデル)
- 500B トークンで学習する場合、38300 GPU 時間が必要
- Google Cloud で 8 台の A100-80G Spot GPU を 1 時間使用した場合は 12.6 ドル
- 総コストは 60300 ドル
2件のコメント
4090のような一般消費者向けGPUでトレーニングしたら、どれくらい時間がかかるのか気になりますね
聞いたことのある名前だな……と思って調べてみたら、
OpenLLaMA - LLaMAのオープンな複製版
これとはダッシュ1つ違いの名前ですが、中身はまったく別のプロジェクトですね。