- AMDは最近、MI300Xグラフィックアクセラレータを発表し、NvidiaのH100と比べて最大1.6倍高い性能を主張
- これに対しNvidiaは、AMDがH100との比較時に自社の最適化を使用していないと反論
- AMDは、Nvidiaがサーバーワークロードで一般的に発生するレイテンシを考慮せず、実際の状況を模倣していないスループット性能だけを示したと指摘
- また、NvidiaがH100の内部TensorRT-LLMを使用して選択的な推論ワークロードセットをベンチマークしたと主張
- AMDは、広く使われているvLLMとFP16データ型を使ってテストを行い、vLLMはFP8をサポートしていないことを強調
- AMDは、Nvidiaが実際のサーバー環境を反映せず、レイテンシを考慮しないままスループット性能を提示したと批判
AMDの最適化とレイテンシを考慮した更新テスト結果
- AMDはNvidiaのTensorRT-LLMを使用して3回の性能テストを実施
- 1回目のテストでは、両社ともvLLMを使用し、FP16データセットで比較: MI300Xが2.1倍高速
- 2回目のテストでは、MI300XのvLLM性能をTensorRT-LLMと比較: MI300Xが1.3倍高速
- 3回目のテストでは、MI300XのvLLM(FP16)とTensorRT-LLM(FP8)を比較: 1.7秒対1.6秒でH100がやや高速
- FP8を使うには、TensorRT-LLMのクローズドなシステムとともにFP16を捨てる必要があり、本質的にはvLLMを永続的に捨てることも認めなければならない
まだコメントはありません。