- TensorRT ディープラーニングコンパイラと最適化済みカーネル、前処理/後処理段階、マルチGPU/マルチノード通信の基本要素などを含む
- C++ や CUDA に関する深い知識がなくても、LLM に最高性能とカスタマイズ機能を迅速に提供可能
- オープンソースのモジュール式 Python API を提供し、使いやすさと拡張性を実現
- Ampere、Lovelace、Hopper GPU をサポート
- H100 ベースで TensorRT-LLM を適用してテストしたところ
- GTP-J-6B は推論性能が8倍向上、TCO が5.3倍減少、エネルギー消費量が5.6倍減少
- Llama2 70B は推論性能が4.6倍向上、TCO が3倍減少、エネルギー消費量が3.2倍減少
- In-flight Batching と呼ばれる最適化されたスケジューリング技術を含む
- TensorRT-LLM を搭載した NVIDIA H100 GPU は、ユーザーがモデルの重みを新しい FP8 形式へ簡単に変換し、モデルをコンパイルして最適化済み FP8 カーネルを自動活用できる機能を提供
- Hopper Transformer Engine 技術により可能で、モデルコードを変更する必要はない
- 現在アーリーアクセス提供中で、数週間以内にリリース予定
まだコメントはありません。