9 ポイント 投稿者 xguru 2023-09-13 | まだコメントはありません。 | WhatsAppで共有
  • TensorRT ディープラーニングコンパイラと最適化済みカーネル、前処理/後処理段階、マルチGPU/マルチノード通信の基本要素などを含む
  • C++ や CUDA に関する深い知識がなくても、LLM に最高性能とカスタマイズ機能を迅速に提供可能
  • オープンソースのモジュール式 Python API を提供し、使いやすさと拡張性を実現
  • Ampere、Lovelace、Hopper GPU をサポート
  • H100 ベースで TensorRT-LLM を適用してテストしたところ
    • GTP-J-6B は推論性能が8倍向上、TCO が5.3倍減少、エネルギー消費量が5.6倍減少
    • Llama2 70B は推論性能が4.6倍向上、TCO が3倍減少、エネルギー消費量が3.2倍減少
  • In-flight Batching と呼ばれる最適化されたスケジューリング技術を含む
  • TensorRT-LLM を搭載した NVIDIA H100 GPU は、ユーザーがモデルの重みを新しい FP8 形式へ簡単に変換し、モデルをコンパイルして最適化済み FP8 カーネルを自動活用できる機能を提供
    • Hopper Transformer Engine 技術により可能で、モデルコードを変更する必要はない
  • 現在アーリーアクセス提供中で、数週間以内にリリース予定

まだコメントはありません。

まだコメントはありません。