5 ポイント 投稿者 xguru 2023-12-20 | まだコメントはありません。 | WhatsAppで共有
  • AMDは最近、MI300Xグラフィックアクセラレータを発表し、NvidiaのH100と比べて最大1.6倍高い性能を主張
    • これに対しNvidiaは、AMDがH100との比較時に自社の最適化を使用していないと反論
  • AMDは、Nvidiaがサーバーワークロードで一般的に発生するレイテンシを考慮せず、実際の状況を模倣していないスループット性能だけを示したと指摘
    • また、NvidiaがH100の内部TensorRT-LLMを使用して選択的な推論ワークロードセットをベンチマークしたと主張
  • AMDは、広く使われているvLLMとFP16データ型を使ってテストを行い、vLLMはFP8をサポートしていないことを強調
  • AMDは、Nvidiaが実際のサーバー環境を反映せず、レイテンシを考慮しないままスループット性能を提示したと批判

AMDの最適化とレイテンシを考慮した更新テスト結果

  • AMDはNvidiaのTensorRT-LLMを使用して3回の性能テストを実施
  • 1回目のテストでは、両社ともvLLMを使用し、FP16データセットで比較: MI300Xが2.1倍高速
  • 2回目のテストでは、MI300XのvLLM性能をTensorRT-LLMと比較: MI300Xが1.3倍高速
  • 3回目のテストでは、MI300XのvLLM(FP16)とTensorRT-LLM(FP8)を比較: 1.7秒対1.6秒でH100がやや高速
  • FP8を使うには、TensorRT-LLMのクローズドなシステムとともにFP16を捨てる必要があり、本質的にはvLLMを永続的に捨てることも認めなければならない

まだコメントはありません。

まだコメントはありません。