8 ポイント 投稿者 xguru 2023-05-16 | 2件のコメント | WhatsAppで共有
  • データセット生成からトークン化、プロンプトチューニング、LoRA および RLHF まで、全体のパイプラインを構成したオープンソース
  • 事前学習済みの Open-LLama-V2-pretrain モデルも Hugging Face で公開
  • FastChat の評価方法によれば、GPT-3.5 と比較して約 89% の性能を示すとのこと(中国語の質問に対して)
  • 学習速度は 3620 トークン/s で、オリジナルの LLama の 3370 よりやや高速(7B モデル)
  • 500B トークンで学習する場合、38300 GPU 時間が必要
    • Google Cloud で 8 台の A100-80G Spot GPU を 1 時間使用した場合は 12.6 ドル
    • 総コストは 60300 ドル

2件のコメント

 
zer0ne 2023-05-16

4090のような一般消費者向けGPUでトレーニングしたら、どれくらい時間がかかるのか気になりますね

 
xguru 2023-05-16

聞いたことのある名前だな……と思って調べてみたら、
OpenLLaMA - LLaMAのオープンな複製版
これとはダッシュ1つ違いの名前ですが、中身はまったく別のプロジェクトですね。