- AMD Instinct MI355X GPUはAI演算性能が2倍になり、HBMメモリも増強、NVIDIA比でトークン/$効率が40%向上
- ROCm 7ソフトウェアは性能改善と同時にDay-0サポートを前面に打ち出し、AIエコシステムの拡大に注力
- ラックスケール統合ソリューションは、AMDのCPU+GPU+ネットワークを組み合わせたターンキー型AIインフラを提供
- ロードマップ: 2026年に4倍の性能、HBM4、拡張性を含む次世代アーキテクチャとHeliosラックを公開予定
- エネルギー効率: 2030年までにラックスケール基準で20倍の効率改善を目標とし、ハードウェアとソフトウェアの両面で革新を推進
全体要約
ラックスケールAI成長を基盤にしたAMDの動き
- AIハードウェア需要の急増に伴い、業界の主要半導体企業はいずれも市場シェア拡大と成長加速に注力している
- AMDはInstinct MI300XでAIサーバー向けGPU市場に素早く参入し、直近では中核機能と性能に集中した初のアーキテクチャ投入を通じて高マージンの売上を記録した
- これを追い風に、次世代AIサーバーハードウェアで存在感を継続的に拡大する戦略を発表した
Instinct MI350アクセラレータの主な革新
AI演算性能の大幅強化
- Instinct MI350シリーズは新しいCDNA4アーキテクチャをベースに、MI300X比で行列演算(テンソル演算)のクロック当たりスループットを2倍以上に高めた構造となっている
- FP6、FP4などの低精度実数演算を本格的にサポートし、推論負荷を軽減しながら総演算量も大幅に拡大する
- FP6演算では、競合のNVIDIA Blackwellに比べて2倍の速度で処理できるよう設計されており、性能優位を狙う
- 288GB HBM3Eメモリ(8スタック)と8TB/sec帯域幅など、メモリ構成も大幅にアップグレードされた
- TSMC N3Pプロセスをベースにした超大型1850億トランジスタチップで、効率的なダイスタッキング構造により実現されている
多様なSKUと高性能・高消費電力化の流れ
- 液冷専用のMI355X(2.4GHz、5PFLOPS)と空冷のMI350X(2.2GHz、4.6PFLOPS)に分かれる
- 消費電力はMI300X比で増加し、空冷モデルが1000W、液冷モデルが1400Wとなる
- 1ラックあたり128基のMI355Xを搭載した場合、GPUだけで180kW級の電力を消費し得る
- 価格競争力も強調されており、NVIDIA比でトークン/$基準40%以上の優位(30%低価格)が見込まれる
- 2024年Q3からパートナー企業への供給を開始し、実際の供給ペースは流動的だ
ROCm 7ソフトウェア戦略
Day-0サポートと性能最大化
- ROCm 7はCDNA4、MI350シリーズアクセラレータへの対応に加え、性能やエンタープライズ管理など全方位で改善を進める
- Pytorchなど主要フレームワークのDay-0サポートを目標としている
- 2024年Q3にはWindowsネイティブのPytorch、ONNX Runtime、RDNA 4/3 GPUサポートも始まる
- ソフトウェア最適化だけで、MI300X世代の性能がROCm 7ではROCm 6比で最大3.8倍向上した
- ROCm Enterprise AIを通じて、大規模AIクラスター運用やモデルのファインチューニングなど、エンタープライズ向け特化ツールを提供する
ネットワークエコシステム完成へ: Pollara 400 AI NIC
- Pensando買収後、AMD初のネットワークカードであるPollara 400 AI NIC(400G Ethernet、TSMC N4プロセス)を投入
- 拡張性とプログラマブルなP4 NIC機能により、AMDベースのスーパーコンピュータラック構成を支援する
- Ultra Ethernet Consortium互換の初のAI NICとして、次世代スケールアウトネットワーキングの基盤を整える
MI400ベースのラックスケール将来ロードマップ
- MI400(2026年): FP8基準のAI性能を2倍にし、HBM4 432GB/19.6TB/sec帯域幅を目標とする新世代アーキテクチャ(CDNA Next)を採用
- Ultra Accelerator Linkにより、8 GPUから1024 GPUへのスケールアップ拡張を実現し、大規模並列処理を支援する
- Heliosラックシステム: MI400、EPYC Venice(第6世代)、Vulcano(800G NIC)を組み合わせ、次世代陣営(NVIDIA Vera Rubin)に対するメモリ/ネットワーク面の優位性を強調
- オープンなロードマップを通じて、毎年CPU、GPU、ラックシステムの中核アーキテクチャ革新計画を提示する
- 2030年までにラックスケールのエネルギー効率を20倍、全体効率を100倍向上させることを目標に、ハードウェア・ソフトウェア最適化に取り組む
結論
- AMDはInstinct MI350〜Heliosシリーズ、CDNA 4〜Next、ラックスケールのターンキーソリューションを通じて、AIインフラ市場で差別化されたリーダーシップの確立を狙う
- 当面は新しいMI350、CDNA4アーキテクチャ、そしてROCm 7ソフトウェアが中核になる見通しだ
- NVIDIAとのAIサーバー市場競争において、性能、コスト、拡張性、効率性のすべてを強化しようとする戦略を展開している
1件のコメント
Hacker Newsのコメント
ROCmの使い勝手は本当にケースごとの差が大きいという印象で、コンシューマ向けグラフィックカードのサポートも正直信頼しにくいレベルだと思う。代替になってほしいという期待はあったが、CUDAに乗り換えてからは厄介な問題や時間の浪費を大幅に減らせた経験がある。特にHIPでMiOpenのベンチマークを回すのに時間がかかりすぎる問題がある
2010年ごろから科学計算向けにCUDAが台頭し始めて以来、同じ話がずっと繰り返されてきたように感じる。15年経った今でもAMDがその成功のやり方を追随できていないのが理解できないし、すでにNVIDIAがソフトウェアエコシステムを完全に掌握した今となっては遅すぎる感が大きい
AMDが提供しているソフトウェアについて詳しい人が全体像を説明してくれたらと思う。ニューラルネットワークの推論や学習を実際に行えるSDKが何なのか気になる。選択肢が多すぎてしばらく調べてもみたが、方向性があまりに分散している感じで、どこへ向かっているのか把握しにくい
JensenにはCUDAスタックとワークステーション分野で確かなノウハウがあるという感覚がある。AMDは単にハードウェアを大型化するだけでなく、こうしたスタックそのものを乗り越えなければならないという現実がある。市場の大半の人は、市場シェア10%にも満たない構成のために長く勉強して複雑なスタックを学ぼうとはしない
CUDA APIを直接呼ぶ開発者はほとんどいないというのが実情だ。だからAMDが注力すべきなのは、ROCmバックエンドをXLAやPyTorchにきちんと接続することだと思う。これだけでもかなりの市場を切り開けるはずだし、10数年前のNvidiaのように、AMDも大学などにGPUを無償で配って研究者エコシステムを育てるべきだと思う。今はAI計算資源が不足していて、大学の多くは2〜3世代前のハードウェアしか使っていない。もしAMDが半額で安定したGPUを提供すれば、博士課程の学生が自然とAMDエコシステムに入ってきて、その経験が産業界にもつながるはずだという主張
人々はCUDAと聞くと主にC言語だけを思い浮かべるが、実際にはCUDA 3.0からC++が基本で、Fortranサポートも含まれている。NVIDIAはさまざまな言語がPTX環境を活用できるよう積極的に支援しており、2025年にはPython CUDA JIT DSLの導入も予定している。最新バージョンでなくてもCUDA SDKはエントリー級ノートPCでも動くので、ハードウェアが弱くても少しずつ学べるのが利点だ
エントリー級ハードウェアのソフトウェアサポートについて悪い話を多く聞いてきた。参入障壁の低い入口(in-ramp)が非常に重要だと認識している。逆にデータセンター向けハードウェアを重視するなら、ポートフォリオ自体は小規模に絞りつつ、クラウドプロバイダーを通じてより広いアクセス性を確保できるという考えもある。MI350-Aワークステーションのような初心者向け機材が出てくれたらと思うが、実現は難しそうだ
今の時点で見ると、AMD内部に深刻な問題があってソフトウェアスタックが未成熟なのだと思う。いろいろな問題について顧客の声を聞き、チームを拡充する時間は十分あったはずなのに、実際の進展はあまりないというニュアンスだ。報酬インセンティブも大きいのに変化が少ないと感じる。Lisa Su CEOは優れた経営者だという点には同意するが、やはりハードウェア出身なのでソフトウェア革新にはやや消極的なのではないかという考え
ROCm対応の有無は、まだ一般的なAIユーザーにとって大きな問題ではないという意見。およそ10年前から標準AMDドライバに含まれているVulkan APIのおかげで、llama.cppやLM Studioなど主要なワンクリックLLMアプリも動く状況にある。速度は遅いが、実際に使える環境ではある
NVIDIAとAMDの今後の競争構図について、ややユーモラスに「遠い将来、その未来が現実になったときはこちらから連絡する」という冗談めいた発言
「Bob Pageがこれを率いているのか?」という短い疑問
"Atropos log, abandoning Helios" というゲーム内のセリフに感情的な反応を覚えるという話で、関連ニュースが出るたびに思い出す感じだという
AMDがH100を上回る学習向けチップを作ってくれることへの期待
昨年MI300Xで学習したときは少し問題があり、どうにか動いてもH100比で20〜30%遅かった。最近は最新のROCmとPyTorchのセットアップで、OpenRLHF(transformers/DeepSpeedベース)のDPO学習を試してみたところ、短い12時間単位のジョブではGPU時間あたりの性能がほぼH200に近い傾向がある。以前は8GPUノードでテストしていて、今は単一のMI300X GPUで実験中なので完全に公平な比較ではなく、マルチGPUやマルチノード学習は依然として未知数なので、単一サンプルとして見てほしい
H100はすでに発売から3年も経っていることを考えると、さらに大きな差を感じる。革新速度の体感という話
比較的遅いチップのことを言っているのだと理解した。実際にはMI300シリーズがすでにH100を上回っていて、MI400もまもなく出るかもしれないという論調
実際に重要なのは、「ソフトウェア++: ROCm 7 Released」の主な内容のうち、CUDAのように一般消費者向けノートPCで使えるものがどれだけあるかという点だ
正直、その記事を読むのはつらかったし、記事の執筆者にはmi355を1台あげても惜しくないくらいの熱意だと思った。AMDが記事で期待されるほど信頼される理由はまったくないし、RDNA4ラインアップをROCmで何か月もサポートしなかったのが決定的に残念だ。AMDはスケジュール上day 120で対応できるという無責任な態度を見せているし、ベンチマークで性能が実際にどの部分から出ているのかも明確にしていない。明らかにFP4性能をFP8や16と比較した結果を示して誤引用しているように思える、という強い疑いがある
ROCmをコンシューマ向けにきちんと投資せず、サポートが遅い点は依然として衝撃的で戸惑うが、最近ではクライアント向けカードでもday 1サポートを行うと公式発表したという話がある。もちろん本当に約束を守るかが重要で、AMDもようやくROCmをスタック全体でしっかり支えることの重要性に気づいたような雰囲気がある。RyzenとRadeonの両方を作っている会社だというのに奇妙に感じるほどで、今年のRadeonはかなり好調だと思うが、RDNA4の公式ROCmサポートがあまりにも遅れたのは残念だ。それでもコンシューマ製品では9070 XTとFSR4のおかげで第一印象は悪くなく、AMDが機会を避けていた以前とは違って動きが見えるので、かなり慎重ながらも楽観している。こうした約束が長く続いてほしいという気持ちだ。関連リンク
AMDはコンシューマ向けGPUでのコンピュート支援にはあまり関心がなく、データセンター向けGPUではかなり良いソフトウェアスタックとサポートを提供しているという現実
「この記事はAMDに信頼を与えすぎているように思う」という元コメントの引用について、もしかするとAnandTechなどで有名なRyan Smithのことを指しているのか再確認している。リンク
AMDは今やマーケティング会社だという主張で、本質的には技術力ではなくマーケティングで市場を戦っているというニュアンス