DeepSpeed ZeRO++:通信量を4分の1に抑えつつ、LLMとチャットモデルのトレーニング速度を飛躍的に向上
(microsoft.com)- LLMはかなり多くのメモリと計算リソースを必要とする
- DeepSpeedのZeROファミリーはこの問題に対する解決策を提供しており、TNLG-17B、Bloom-176B、MPT-7B、Jurrasic-1などで利用されている
- しかし、多数のGPUが使われる大規模シナリオでは、GPU間で頻繁な通信が必要になるなどのオーバーヘッドが発生する
- ZeRO++はこのような場合に向けて、モデル品質に影響を与えることなく全体の通信量を4分の1に削減する
- 大規模モデルの事前学習およびファインチューニングを高速化
- GPUあたりのバッチサイズが小さい場合:ZeRO比で2.2倍のスループット
- 低帯域幅クラスタでも、4倍の帯域幅に近い処理性能を実現
- RLHFを用いたChatGPTのようなモデルも高速化
- 大規模モデルの事前学習およびファインチューニングを高速化
まだコメントはありません。