Open-LLaMa - LLM 作成向けの完全なトレーニングパイプライン

xguru · 2023-05-16T10:02:01+09:00

データセット生成からトークン化、プロンプトチューニング、LoRA および RLHF まで、全体のパイプラインを構成したオープンソース事前学習済みの Open-LLama-V2-pretrain モデルも Hugging Face で公開 FastChat の評価方法によれば、GPT-3.5 と比較して約 89% の性能を示すとのこと（中国語の質問に対して）学習速度は 3620 トークン/s で、オリジナルの LLama の 3370 よりやや高速（7B モデル） 500B トークンで学習する場合、38300 GPU 時間が必要 Google Cloud で 8 台の A100-80G Spot GPU を 1 時間使用した場合は 12.6 ドル総コストは 60300 ドル

(github.com/s-JoL)

8 ポイント投稿者 xguru 2023-05-16 | 2件のコメント | WhatsAppで共有

データセット生成からトークン化、プロンプトチューニング、LoRA および RLHF まで、全体のパイプラインを構成したオープンソース
事前学習済みの Open-LLama-V2-pretrain モデルも Hugging Face で公開
FastChat の評価方法によれば、GPT-3.5 と比較して約 89% の性能を示すとのこと（中国語の質問に対して）
学習速度は 3620 トークン/s で、オリジナルの LLama の 3370 よりやや高速（7B モデル）
500B トークンで学習する場合、38300 GPU 時間が必要
- Google Cloud で 8 台の A100-80G Spot GPU を 1 時間使用した場合は 12.6 ドル
- 総コストは 60300 ドル

2件のコメント

zer0ne 2023-05-16

4090のような一般消費者向けGPUでトレーニングしたら、どれくらい時間がかかるのか気になりますね

xguru 2023-05-16

聞いたことのある名前だな……と思って調べてみたら、
OpenLLaMA - LLaMAのオープンな複製版
これとはダッシュ1つ違いの名前ですが、中身はまったく別のプロジェクトですね。

Open-LLaMa - LLM 作成向けの完全なトレーニングパイプライン

関連記事

2件のコメント