15 ポイント 投稿者 ninebow 2023-09-10 | まだコメントはありません。 | WhatsAppで共有

ここ数年でGPUの速度は爆発的に向上し、それに伴ってディープラーニングのワークロード最適化の方法も変化しています。PyTorchでも torch.compile() のような最適化機能が追加されていますが、LLMをはじめとする一部のワークロードでは改善がまだ進行中です。

(torch.compile() の改善を待つ間に) すぐ適用できる最適化手法であるCUDA Graphを紹介し、実際に適用した記事を見つけたので翻訳してみました。(⚠️注意: 記事の末尾には、原文を執筆したLLM推論プラットフォーム開発・サービス企業 Fireworks.ai の宣伝が一部含まれています。)

この記事では、以下のような順序でCUDA Graphを紹介しています:

  • 既存の最適化手法であるCPU/GPUオーバーラップの紹介

  • CPUオーバーヘッドが発生する区間

  • CPUオーバーヘッド最適化のための手法とCUDA Graph

  • LLaMA2-7BモデルへのCUDA Graph適用事例の紹介

  • CUDA Graphによる性能向上の紹介

  • 付録: 現時点(PyTorch 2.0.1)での torch.compile() 使用時の問題と解決方法

まだコメントはありません。

まだコメントはありません。