NVIDIA、LLM推論を高速化するオープンソース TensorRT-LLM を公開

xguru · 2023-09-13T10:17:02+09:00

TensorRT ディープラーニングコンパイラと最適化済みカーネル、前処理/後処理段階、マルチGPU/マルチノード通信の基本要素などを含む C++ や CUDA に関する深い知識がなくても、LLM に最高性能とカスタマイズ機能を迅速に提供可能オープンソースのモジュール式 Python API を提供し、使いやすさと拡張性を実現 Ampere、Lovelace、Hopper GPU をサポート H100 ベースで TensorRT-LLM を適用してテストしたところ GTP-J-6B は推論性能が8倍向上、TCO が5.3倍減少、エネルギー消費量が5.6倍減少 Llama2 70B は推論性能が4.6倍向上、TCO が3倍減少、エネルギー消費量が3.2倍減少 In-flight Batching と呼ばれる最適化されたスケジューリング技術を含む TensorRT-LLM を搭載した NVIDIA H100 GPU は、ユーザーがモデルの重みを新しい FP8 形式へ簡単に変換し、モデルをコンパイルして最適化済み FP8 カーネルを自動活用できる機能を提供 Hopper Transformer Engine 技術により可能で、モデルコードを変更する必要はない現在アーリーアクセス提供中で、数週間以内にリリース予定

(developer.nvidia.com)

9 ポイント投稿者 xguru 2023-09-13 | まだコメントはありません。 | WhatsAppで共有

TensorRT ディープラーニングコンパイラと最適化済みカーネル、前処理/後処理段階、マルチGPU/マルチノード通信の基本要素などを含む
C++ や CUDA に関する深い知識がなくても、LLM に最高性能とカスタマイズ機能を迅速に提供可能
オープンソースのモジュール式 Python API を提供し、使いやすさと拡張性を実現
Ampere、Lovelace、Hopper GPU をサポート
H100 ベースで TensorRT-LLM を適用してテストしたところ
- GTP-J-6B は推論性能が8倍向上、TCO が5.3倍減少、エネルギー消費量が5.6倍減少
- Llama2 70B は推論性能が4.6倍向上、TCO が3倍減少、エネルギー消費量が3.2倍減少
In-flight Batching と呼ばれる最適化されたスケジューリング技術を含む
TensorRT-LLM を搭載した NVIDIA H100 GPU は、ユーザーがモデルの重みを新しい FP8 形式へ簡単に変換し、モデルをコンパイルして最適化済み FP8 カーネルを自動活用できる機能を提供
- Hopper Transformer Engine 技術により可能で、モデルコードを変更する必要はない
現在アーリーアクセス提供中で、数週間以内にリリース予定

NVIDIA、LLM推論を高速化するオープンソース TensorRT-LLM を公開

関連記事

まだコメントはありません。