1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • 推論需要が供給を上回り、NVIDIA GPUとトークンコストが上昇する中、AMD MI355XはB300比でGPUあたり平均約2.75倍安く、低コスト推論の代替として浮上している
  • AMD Instinct MI350シリーズはBlackwellとシリコンレベルで競合するが、NVIDIAのソフトウェア優位とday-0サポートが、実際のサービング速度と導入難易度を左右する
  • WaferはGLM-5.2をMI355X向けに最適化し、20k入力/1k出力、キャッシュヒット率60%のワークロードで2626 tok/s/nodeと2.4 rpsを達成しており、これはB200実測性能の80%水準にあたる
  • 単一ストリームでは10k入力トークン/1.5k出力トークンで213 tok/sを記録し、リーダーボード最上位ではないものの、性能単価では優位だとしている
  • 今回の結果はカスタムカーネルなしで、フレームワークのバグ修正、量子化、speculative decode、MoEカーネル選択のチューニングによって得られたものであり、AMDの課題は次第にソフトウェアそのものよりサポートの問題に近づいている

AMDの推論コストとNVIDIAのソフトウェア格差

  • 推論需要は急速に拡大して供給を上回っており、Claude Fable、GLM-5.2、Minimax M3のような最前線モデルがほぼ隔週で登場するなか、トークン需要も増大している
  • Blackwellの供給不足により、NVIDIA GPUの価格とトークンコストがともに上昇している
  • AMD MI355XはB300比でGPUあたり平均約2.75倍安く、ハードウェア仕様も比較可能な水準にある
  • AMD Instinct MI350シリーズはシリコンレベルでBlackwellと競合する一方、NVIDIAはday-0サポートとソフトウェアエコシステムにより、最新モデル推論をより速く、より少ない摩擦で提供できる
  • MI355XとROCmスタックでは、最新の最前線モデルでSOTA性能がそのまま出ないことが多く、実行可能なイメージすら見つけにくい場合がある
  • day-0サポートがなければ、最新モデルのビルドと最適化に数週間分のエンジニアリングと計算資源が必要になり、その間にもさらに新しいモデルが登場して、AMDが追い続ける構図になる

MI355X上のGLM-5.2性能

  • Waferは、エージェントがカーネルとモデル最適化を改善することで、AMDとNVIDIAの実運用での差が縮まりつつあると見ている
  • 20k入力/1k出力、キャッシュヒット率60%のワークロードで2626 tok/s/nodeを達成
    • 持続RPSは2.4 rps
    • 定義したkneeはTTFT 5秒以下
    • B200で測定した性能の80%水準
    • MI355Xは2倍以上安価
持続RPS 集計 tok/s/node TTFT p50 / p95 成功率
0.5 449 0.59s / 0.60s 100%
1.0 974 0.60s / 0.81s 100%
1.5 1913 0.62s / 1.03s 100%
2.0 1944 0.62s / 1.05s 100%
2.25 2089 0.63s / 1.23s 100%
2.4 飽和 2626 0.81s / 2.22s 100%
  • Artificial Analysis基準に従い、GLM-5.2の単一ストリームで10k入力トークン/1.5k出力トークン条件において213 tok/sを達成
  • この数値はArtificial Analysisリーダーボードの最上位ではないが、性能単価では優位だとしている
  • テストはTensorWaveのAMD MI355Xキャパシティ上でサービングされた

量子化と推論フレームワークの選択

  • 最初の段階は量子化とフレームワークの選定であり、Waferはbf16ベースのGLM-5.2をAMD QuarkでMXFP4量子化した
  • z-aiの公式FP8量子化と比較すると、MXFP4はGPQA-Diamond、tau2、GSM8Kで損失がない水準と評価された
評価 FP8基準 MXFP4 Δ
GSM8K, 200問, 5-shot, greedy 0.965 ± 0.013 0.955 ± 0.014 −0.010
GPQA-Diamond, 198問 × 2 seeds, temp 1.0 0.9217 ± 0.027 0.9026 ± 0.029 −0.019
tau2 macro 0.819 0.834 +0.015
  • 推論フレームワーク候補はvLLMATOMsglangの3つだった
    • vLLMはMXFP4 + GlmMoeDsa経路が動作せず、MXFP4重みの利点を活用できなかった
    • ATOMは長いコンテキストで出力品質が低下した
    • sglangはネイティブ対応までの摩擦が最も少なく、量子化を活かしつつ一貫した出力を維持した

speculative decodeを妨げていた2つの問題

  • スループット改善のためsglangでspeculative decodeを有効化しようとしたが、sglangのROCmイメージはこれを標準ではサポートしていなかった
  • MTPが正しく動作するには2つの修正が必要だった
  • 1つ目の問題は、MTP headのshared expertがbf16で保存されている一方で、sglangの量子化ルックアップがモジュールprefixの不一致によりこれをMXFP4としてビルドしようとしていたこと
    • Quarkはbf16 shared expertをmodel.layers.78.mlp.shared_experts.*と命名する
    • MTP layerの実際のprefixはmodel.decoder.*である
    • この不一致により、ロード時にフル幅のbf16重みをハーフ幅の4-bitスロットに読み込もうとしてshape mismatchが発生し、初期化に失敗した
    • Waferはlayer 78の項目を、sglangが実際に使うdecoder名でもう一度コピーすることでspeculative decodeを有効にし、単一ストリームのスループットをほぼ3倍に高めた
  • 2つ目の問題は、z-aiが提案した5/1/6設定のような深いspeculative decodeが阻害されていた点
    • draft depth 4以上に必要なfused multi-step metadataカーネルが、ROCm guardなしで#include <cuda_runtime.h>を記述していた
    • #ifdef USE_ROCM guardを1つ追加して修正した
  • speculative decodeが正常動作した後、--kv-cache-dtype fp8_e4m3--enable-aiter-allreduce-fusionといった設定最適化を加え、単一ストリームのデコード性能213 tok/sに到達した

集計スループットのボトルネックとMoEチューニング

  • 定義したワークロードではデコード最適化だけでは不十分で、20k入力と60%キャッシュ条件では主なボトルネックはprefillだった
  • 単一ストリームのデコード向けに合わせたTP8構成では、MI355XはGLM-5.2-MXFP4を1461 tok/s/nodeで実行した
  • TP4×DP2へ切り替えると、同じワークロードで1944 tok/s/nodeと2.0 RPSを達成した
  • ただしWaferが測定したBlackwell性能は3.0 RPSで3192 tok/s/nodeであり、MI355Xのprefill性能は相対的に遅かった
  • 大きな理由は、sglangイメージ上でGLM-5.2のfp4 MoEが低速なFlyDSLヒューリスティックfallbackへ静かに落ちていたことだった
    • aiterはa8w8/fp8経路についてのみチューニング済み設定を提供する
    • WaferはGLMのfp4 shapeに合わせてMoEカーネル選択を自らチューニングした
    • 対象shapeはmodel_dim 6144, moe_inter 2048, E=256, topk=8
  • このチューニングにより、集計スループットは2626 tok/s/nodeと2.4 RPSに到達した

AMDでSOTA性能を出すために必要なこと

  • MI355Xで最高の性能単価を達成する過程にはある程度の摩擦があったが、特別に難しいものではないと評価されている
  • Qwen3.5 397Bの作業と異なり、今回はカスタムカーネルを書いていない
  • 今回の研究ではマルチノード性能は考慮していないが、単一ノード配備は実環境でも依然として広く使われている
  • AMDでSOTA性能を出す問題は、次第にソフトウェアそのものよりサポートの問題になりつつある
  • CUDA moatはリアルタイムで弱まりつつある、という結論だ

1件のコメント

 
GN⁺ 4 시간 전
Hacker News の意見
  • こういう比較には ワット当たり性能も指標に入れてほしい。AMD が実性能に対するコストでどの位置にいるのか知りたい
    米国外にデータセンターを建てようとしている企業と話すと、Nvidia の供給量を十分な規模で確保するのが難しいという
    AMD がワット当たり性能で競争力があり、ソフトウェアサポートもおおむね信頼できるなら、米国外では電気料金が相対的に高い場合が多いのでかなり重要になる
    適切な価格で小規模データセンターを可能にできるなら、Nvidia の供給が限られる地域では AMD がスタックの一部になり得るように見える
    ただし AMD GPU の調達が実際どうなのかはよく分からないし、米国の Wafer といくつかの企業を除くと AMD を使っている会社をほとんど見たことがないので、自分が Nvidia バブルの中に閉じ込められているだけなのかもしれない

    • DGX B200 はおおよそ 50 万ドルで、消費電力は約 14kW
      8 年間 100% で回し続けると仮定すると約 1GWh だが、ドイツのように電気代が高い場所でも約 10 万ユーロ程度なので、初期の機器代 50 万ドルに比べれば 8 年にわたるコストとしては大きくない
      高消費電力の本当の問題は電気料金ではなく、データセンターに引き込める電力供給の上限だ。より効率的な構成が望ましいというのは、限られた受電容量の中により多くの機器を入れられるという意味である
    • AMD を使っているところはいくつかあり、実験を始めたところはさらに多い。ただし AMD はこの分野で長年失望させてきたので、ついに競争が生まれると楽観するには慎重にならざるを得ない
      市場には Nvidia の実質的な競合が本当に必要で、特に 性能/ワット が重要だ
    • Meta は AMD を使っている: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
      OpenAI も同様: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
    • AMD がここ数年、ビデオゲーム機のハードウェア側を事実上支配してきた点も覚えておく価値がある。すぐに終わる兆しもない
    • 通常、Nvidia が注文をすべて満たせない企業なら、少なくとも一部の AMD GPU は持っている
  • すごいことではあるが、実利用で FP4 量子化が実質的にロスレスなケースはほとんどない。多くのプロバイダーが Kimi や GLM で高い毎秒トークン数を宣伝しているが、モデルは機能的に抑制された状態になり、もはや最前線の品質に近いとは言えない
    これが事実でなければいいのだが

    • Kimi は INT4 を基本フォーマットとして使っているので、そのモデルには「4 ビット精度より良い」という概念がない
      これは 16 ビット精度が基本で、8 ビットもよく使われる GLM とは異なる
    • MI355X は FP4 と同じ速度で FP6 演算ができる。AMD だけの特徴だ
      だから人々は、ほぼロスレスに近く、FP8 よりも FP4 の性能にはるかに近い MXFP6 量子化を作るべきだ
    • Nvidia も NVFP4 はロスレスだと主張していなかったか?
      Nvidia が NVFP4 に変換したモデルを GLM 5.2 以外で十分にテストしたわけではないが、私の目には問題なかった
      実際に使ってみた結果はモデルごとにばらつきがあった
    • 私も真っ先にそこが目についた
    • 記憶では精度の 96〜98% くらいだったと思う
  • より速く安く改善していく道筋を論じるのかと思ったが、この記事では量子化版をフル版と同じ価格で提供し、高速版はずっと高く売っているように見える

  • これはほとんど当然では? ドル当たり性能はラチェットのように一方向に良くなるべきものだ。より高いものが、より安いものをどうやって置き換えるのか?

  • こういう記事タイトルには量子化方式の明記を義務づけ、明記しないものは違法にすべきだと思う

    • MXFP4 だ
    • タイトルに「Why this matters」と書くのも禁止してほしい
    • 良いフィルターは末尾が .ai かどうかを確認することだ。それが見えたら、低労力、クリックベイト、浅い記事、役に立たない記事、詐欺的な記事である可能性が非常に高い
  • メモリ内演算とニューロモルフィック・パラダイムは、今後 10 年でこの流れをさらに大きく押し進める可能性が高い
    より急進的な改善が研究室の外に出てくるにつれ、最終的には新素材やナノデバイスが入り、効率は桁違いに向上し得る
    MRAM のような既存技術をスケールさせるだけでも余地がある

  • fp8 から mxfp4 に変えると、精度低下が目に見えて生じる

    • Wafer はリリースから数週間で自社のフラッグシップのコーディング料金プランである Wafer Pass を中止し、比例配分の返金までしなければならなかった
      それでも実装が明らかに不十分なのに、量子化でコストをさらに下げたと自慢している
      [1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
    • それでもどうにか「ロスレス」だと主張していた
  • 新しい現象ではない。ドル当たり性能は 1900 年ごろからかなり一貫して指数関数的に向上してきた
    1900〜2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
    1939〜2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...

  • Blackwell と競合するのは驚くことではない。Rubin は推論で Blackwell より 5 倍速く、Blackwell は Nvidia が推論向けに特化して最適化していない最後の世代だ
    私が見落としていることがあれば教えてほしい

    • Rubin で推論に最適化されたと言える特別な点が何なのかは非常に不明瞭だ
      プリフィルノードとデコードノードを分離する分離型構成は見えるが、それ以外に何があるのか分からない
    • 推論がメモリ帯域幅に縛られているのに、どうやって推論を 5 倍速くできるのか? H100 の 5 倍のメモリ帯域幅を得るのは物理的に難しそうだ
  • 特に複数の通貨が弱含んでいる状況ではなおさらだ