ドル当たりの性能はより速く、より安くなっている
(wafer.ai)- 推論需要が供給を上回り、NVIDIA GPUとトークンコストが上昇する中、AMD MI355XはB300比でGPUあたり平均約2.75倍安く、低コスト推論の代替として浮上している
- AMD Instinct MI350シリーズはBlackwellとシリコンレベルで競合するが、NVIDIAのソフトウェア優位とday-0サポートが、実際のサービング速度と導入難易度を左右する
- WaferはGLM-5.2をMI355X向けに最適化し、20k入力/1k出力、キャッシュヒット率60%のワークロードで2626 tok/s/nodeと2.4 rpsを達成しており、これはB200実測性能の80%水準にあたる
- 単一ストリームでは10k入力トークン/1.5k出力トークンで213 tok/sを記録し、リーダーボード最上位ではないものの、性能単価では優位だとしている
- 今回の結果はカスタムカーネルなしで、フレームワークのバグ修正、量子化、speculative decode、MoEカーネル選択のチューニングによって得られたものであり、AMDの課題は次第にソフトウェアそのものよりサポートの問題に近づいている
AMDの推論コストとNVIDIAのソフトウェア格差
- 推論需要は急速に拡大して供給を上回っており、Claude Fable、GLM-5.2、Minimax M3のような最前線モデルがほぼ隔週で登場するなか、トークン需要も増大している
- Blackwellの供給不足により、NVIDIA GPUの価格とトークンコストがともに上昇している
- AMD MI355XはB300比でGPUあたり平均約2.75倍安く、ハードウェア仕様も比較可能な水準にある
- AMD Instinct MI350シリーズはシリコンレベルでBlackwellと競合する一方、NVIDIAはday-0サポートとソフトウェアエコシステムにより、最新モデル推論をより速く、より少ない摩擦で提供できる
- MI355XとROCmスタックでは、最新の最前線モデルでSOTA性能がそのまま出ないことが多く、実行可能なイメージすら見つけにくい場合がある
- day-0サポートがなければ、最新モデルのビルドと最適化に数週間分のエンジニアリングと計算資源が必要になり、その間にもさらに新しいモデルが登場して、AMDが追い続ける構図になる
MI355X上のGLM-5.2性能
- Waferは、エージェントがカーネルとモデル最適化を改善することで、AMDとNVIDIAの実運用での差が縮まりつつあると見ている
- 20k入力/1k出力、キャッシュヒット率60%のワークロードで2626 tok/s/nodeを達成
- 持続RPSは2.4 rps
- 定義したkneeはTTFT 5秒以下
- B200で測定した性能の80%水準
- MI355Xは2倍以上安価
| 持続RPS | 集計 tok/s/node | TTFT p50 / p95 | 成功率 |
|---|---|---|---|
| 0.5 | 449 | 0.59s / 0.60s | 100% |
| 1.0 | 974 | 0.60s / 0.81s | 100% |
| 1.5 | 1913 | 0.62s / 1.03s | 100% |
| 2.0 | 1944 | 0.62s / 1.05s | 100% |
| 2.25 | 2089 | 0.63s / 1.23s | 100% |
| 2.4 飽和 | 2626 | 0.81s / 2.22s | 100% |
- Artificial Analysis基準に従い、GLM-5.2の単一ストリームで10k入力トークン/1.5k出力トークン条件において213 tok/sを達成
- この数値はArtificial Analysisリーダーボードの最上位ではないが、性能単価では優位だとしている
- テストはTensorWaveのAMD MI355Xキャパシティ上でサービングされた
量子化と推論フレームワークの選択
- 最初の段階は量子化とフレームワークの選定であり、Waferはbf16ベースのGLM-5.2をAMD QuarkでMXFP4量子化した
- z-aiの公式FP8量子化と比較すると、MXFP4はGPQA-Diamond、tau2、GSM8Kで損失がない水準と評価された
| 評価 | FP8基準 | MXFP4 | Δ |
|---|---|---|---|
| GSM8K, 200問, 5-shot, greedy | 0.965 ± 0.013 | 0.955 ± 0.014 | −0.010 |
| GPQA-Diamond, 198問 × 2 seeds, temp 1.0 | 0.9217 ± 0.027 | 0.9026 ± 0.029 | −0.019 |
| tau2 macro | 0.819 | 0.834 | +0.015 |
- 推論フレームワーク候補はvLLM、ATOM、sglangの3つだった
- vLLMはMXFP4 + GlmMoeDsa経路が動作せず、MXFP4重みの利点を活用できなかった
- ATOMは長いコンテキストで出力品質が低下した
- sglangはネイティブ対応までの摩擦が最も少なく、量子化を活かしつつ一貫した出力を維持した
speculative decodeを妨げていた2つの問題
- スループット改善のためsglangでspeculative decodeを有効化しようとしたが、sglangのROCmイメージはこれを標準ではサポートしていなかった
- MTPが正しく動作するには2つの修正が必要だった
- 1つ目の問題は、MTP headのshared expertがbf16で保存されている一方で、sglangの量子化ルックアップがモジュールprefixの不一致によりこれをMXFP4としてビルドしようとしていたこと
- Quarkはbf16 shared expertを
model.layers.78.mlp.shared_experts.*と命名する - MTP layerの実際のprefixは
model.decoder.*である - この不一致により、ロード時にフル幅のbf16重みをハーフ幅の4-bitスロットに読み込もうとしてshape mismatchが発生し、初期化に失敗した
- Waferはlayer 78の項目を、sglangが実際に使うdecoder名でもう一度コピーすることでspeculative decodeを有効にし、単一ストリームのスループットをほぼ3倍に高めた
- Quarkはbf16 shared expertを
- 2つ目の問題は、z-aiが提案した5/1/6設定のような深いspeculative decodeが阻害されていた点
- draft depth 4以上に必要なfused multi-step metadataカーネルが、ROCm guardなしで
#include <cuda_runtime.h>を記述していた #ifdef USE_ROCMguardを1つ追加して修正した
- draft depth 4以上に必要なfused multi-step metadataカーネルが、ROCm guardなしで
- speculative decodeが正常動作した後、
--kv-cache-dtype fp8_e4m3、--enable-aiter-allreduce-fusionといった設定最適化を加え、単一ストリームのデコード性能213 tok/sに到達した
集計スループットのボトルネックとMoEチューニング
- 定義したワークロードではデコード最適化だけでは不十分で、20k入力と60%キャッシュ条件では主なボトルネックはprefillだった
- 単一ストリームのデコード向けに合わせたTP8構成では、MI355XはGLM-5.2-MXFP4を1461 tok/s/nodeで実行した
- TP4×DP2へ切り替えると、同じワークロードで1944 tok/s/nodeと2.0 RPSを達成した
- ただしWaferが測定したBlackwell性能は3.0 RPSで3192 tok/s/nodeであり、MI355Xのprefill性能は相対的に遅かった
- 大きな理由は、sglangイメージ上でGLM-5.2のfp4 MoEが低速なFlyDSLヒューリスティックfallbackへ静かに落ちていたことだった
- aiterはa8w8/fp8経路についてのみチューニング済み設定を提供する
- WaferはGLMのfp4 shapeに合わせてMoEカーネル選択を自らチューニングした
- 対象shapeは
model_dim 6144,moe_inter 2048,E=256,topk=8
- このチューニングにより、集計スループットは2626 tok/s/nodeと2.4 RPSに到達した
AMDでSOTA性能を出すために必要なこと
- MI355Xで最高の性能単価を達成する過程にはある程度の摩擦があったが、特別に難しいものではないと評価されている
- Qwen3.5 397Bの作業と異なり、今回はカスタムカーネルを書いていない
- 今回の研究ではマルチノード性能は考慮していないが、単一ノード配備は実環境でも依然として広く使われている
- AMDでSOTA性能を出す問題は、次第にソフトウェアそのものよりサポートの問題になりつつある
- CUDA moatはリアルタイムで弱まりつつある、という結論だ
1件のコメント
Hacker News の意見
こういう比較には ワット当たり性能も指標に入れてほしい。AMD が実性能に対するコストでどの位置にいるのか知りたい
米国外にデータセンターを建てようとしている企業と話すと、Nvidia の供給量を十分な規模で確保するのが難しいという
AMD がワット当たり性能で競争力があり、ソフトウェアサポートもおおむね信頼できるなら、米国外では電気料金が相対的に高い場合が多いのでかなり重要になる
適切な価格で小規模データセンターを可能にできるなら、Nvidia の供給が限られる地域では AMD がスタックの一部になり得るように見える
ただし AMD GPU の調達が実際どうなのかはよく分からないし、米国の Wafer といくつかの企業を除くと AMD を使っている会社をほとんど見たことがないので、自分が Nvidia バブルの中に閉じ込められているだけなのかもしれない
8 年間 100% で回し続けると仮定すると約 1GWh だが、ドイツのように電気代が高い場所でも約 10 万ユーロ程度なので、初期の機器代 50 万ドルに比べれば 8 年にわたるコストとしては大きくない
高消費電力の本当の問題は電気料金ではなく、データセンターに引き込める電力供給の上限だ。より効率的な構成が望ましいというのは、限られた受電容量の中により多くの機器を入れられるという意味である
市場には Nvidia の実質的な競合が本当に必要で、特に 性能/ワット が重要だ
OpenAI も同様: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
すごいことではあるが、実利用で FP4 量子化が実質的にロスレスなケースはほとんどない。多くのプロバイダーが Kimi や GLM で高い毎秒トークン数を宣伝しているが、モデルは機能的に抑制された状態になり、もはや最前線の品質に近いとは言えない
これが事実でなければいいのだが
これは 16 ビット精度が基本で、8 ビットもよく使われる GLM とは異なる
だから人々は、ほぼロスレスに近く、FP8 よりも FP4 の性能にはるかに近い MXFP6 量子化を作るべきだ
Nvidia が NVFP4 に変換したモデルを GLM 5.2 以外で十分にテストしたわけではないが、私の目には問題なかった
実際に使ってみた結果はモデルごとにばらつきがあった
より速く安く改善していく道筋を論じるのかと思ったが、この記事では量子化版をフル版と同じ価格で提供し、高速版はずっと高く売っているように見える
これはほとんど当然では? ドル当たり性能はラチェットのように一方向に良くなるべきものだ。より高いものが、より安いものをどうやって置き換えるのか?
こういう記事タイトルには量子化方式の明記を義務づけ、明記しないものは違法にすべきだと思う
.aiかどうかを確認することだ。それが見えたら、低労力、クリックベイト、浅い記事、役に立たない記事、詐欺的な記事である可能性が非常に高いメモリ内演算とニューロモルフィック・パラダイムは、今後 10 年でこの流れをさらに大きく押し進める可能性が高い
より急進的な改善が研究室の外に出てくるにつれ、最終的には新素材やナノデバイスが入り、効率は桁違いに向上し得る
MRAM のような既存技術をスケールさせるだけでも余地がある
fp8 から mxfp4 に変えると、精度低下が目に見えて生じる
それでも実装が明らかに不十分なのに、量子化でコストをさらに下げたと自慢している
[1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
新しい現象ではない。ドル当たり性能は 1900 年ごろからかなり一貫して指数関数的に向上してきた
1900〜2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
1939〜2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...
Blackwell と競合するのは驚くことではない。Rubin は推論で Blackwell より 5 倍速く、Blackwell は Nvidia が推論向けに特化して最適化していない最後の世代だ
私が見落としていることがあれば教えてほしい
プリフィルノードとデコードノードを分離する分離型構成は見えるが、それ以外に何があるのか分からない
特に複数の通貨が弱含んでいる状況ではなおさらだ