DeepSpeed ZeRO++：通信量を4分の1に抑えつつ、LLMとチャットモデルのトレーニング速度を飛躍的に向上

xguru · 2023-06-28T10:03:01+09:00

LLMはかなり多くのメモリと計算リソースを必要とする DeepSpeedのZeROファミリーはこの問題に対する解決策を提供しており、TNLG-17B、Bloom-176B、MPT-7B、Jurrasic-1などで利用されているしかし、多数のGPUが使われる大規模シナリオでは、GPU間で頻繁な通信が必要になるなどのオーバーヘッドが発生する ZeRO++はこのような場合に向けて、モデル品質に影響を与えることなく全体の通信量を4分の1に削減する大規模モデルの事前学習およびファインチューニングを高速化 GPUあたりのバッチサイズが小さい場合：ZeRO比で2.2倍のスループット低帯域幅クラスタでも、4倍の帯域幅に近い処理性能を実現 RLHFを用いたChatGPTのようなモデルも高速化

(microsoft.com)

10 ポイント投稿者 xguru 2023-06-28 | まだコメントはありません。 | WhatsAppで共有

LLMはかなり多くのメモリと計算リソースを必要とする
DeepSpeedのZeROファミリーはこの問題に対する解決策を提供しており、TNLG-17B、Bloom-176B、MPT-7B、Jurrasic-1などで利用されている
しかし、多数のGPUが使われる大規模シナリオでは、GPU間で頻繁な通信が必要になるなどのオーバーヘッドが発生する
ZeRO++はこのような場合に向けて、モデル品質に影響を与えることなく全体の通信量を4分の1に削減する
- 大規模モデルの事前学習およびファインチューニングを高速化
  - GPUあたりのバッチサイズが小さい場合：ZeRO比で2.2倍のスループット
  - 低帯域幅クラスタでも、4倍の帯域幅に近い処理性能を実現
- RLHFを用いたChatGPTのようなモデルも高速化

DeepSpeed ZeRO++：通信量を4分の1に抑えつつ、LLMとチャットモデルのトレーニング速度を飛躍的に向上

関連記事

まだコメントはありません。