10 ポイント 投稿者 xguru 2023-06-28 | まだコメントはありません。 | WhatsAppで共有
  • LLMはかなり多くのメモリと計算リソースを必要とする
  • DeepSpeedのZeROファミリーはこの問題に対する解決策を提供しており、TNLG-17B、Bloom-176B、MPT-7B、Jurrasic-1などで利用されている
  • しかし、多数のGPUが使われる大規模シナリオでは、GPU間で頻繁な通信が必要になるなどのオーバーヘッドが発生する
  • ZeRO++はこのような場合に向けて、モデル品質に影響を与えることなく全体の通信量を4分の1に削減する
    • 大規模モデルの事前学習およびファインチューニングを高速化
      • GPUあたりのバッチサイズが小さい場合:ZeRO比で2.2倍のスループット
      • 低帯域幅クラスタでも、4倍の帯域幅に近い処理性能を実現
    • RLHFを用いたChatGPTのようなモデルも高速化

まだコメントはありません。

まだコメントはありません。