CPUの帰還:2026年のデータセンターCPU市場展望
(newsletter.semianalysis.com)- 強化学習とエージェント型AI推論への需要が爆発的に拡大し、データセンターにおけるCPUの役割が再び急浮上、GPU中心だった投資の流れに変化が生じている
- Intelは2025年末に予想外のサーバーCPU需要急増を経験し、2026年にファウンドリ設備投資を拡大、PC向けウェハーをサーバー向けに転換している
- AMD VeniceはTSMCのN2プロセスベースの256コアZen6c CCDとメッシュネットワークを導入し、性能・電力効率の両面でIntelとの差がさらに広がる見通し
- NVIDIA、AWS、Microsoft、Google、ARMなど、ハイパースケーラー独自ARM CPU陣営が本格的に拡大し、x86の独占構造は急速に崩れつつある
- Huawei Kunpeng 950まで含め、2026年はすべてのベンダーが新世代CPUを同時投入する前例のない競争の年
データセンターCPUの役割変化と進化
-
PC時代からドットコム時代まで
- 1990年代、PCプロセッサの性能向上によってメインフレームやワークステーションを代替する需要が生まれ、IntelはPentium Pro(1995)とXeonブランド(1998)でサーバー市場に参入
- 2000年代のインターネット時代には、Web 2.0、電子商取引、スマートフォンの普及により、データセンターCPUは数十億ドル規模の市場へと成長
- GHz競争の終息後、マルチコアCPUやメモリコントローラ統合(AMD)、PCIe直接接続などの設計革新が進行
- SMT(Simultaneous Multi-Threading)がIntelとAMDの両社で導入され、並列処理性能が向上
-
仮想化・クラウドコンピューティング・ハイパースケーラー時代
- 2000年代後半、AWSなどのパブリッククラウドの登場により、CapExからOpExモデルへ移行し、サーバーレスコンピューティング(AWS Lambdaなど)へと発展
- CPUハードウェア仮想化がクラウドの中核基盤となり、ハイパーバイザー(VMware ESXiなど)が単一CPU上で多数の独立したVMを運用
- 2018年のSpectreとMeltdown脆弱性によってSMT無効化の必要性が浮上し、最大30%の性能損失が発生
- 分岐予測機能を利用した攻撃により、クラウドセキュリティの脅威が現実化
-
AI GPUとCPUの統合時代
- ChatGPTのリリース(2022年11月)以前の5年間で、Intelは1億個以上のXeon Scalable CPUを出荷
- AIモデルの学習・推論は、GPUの大規模ベクトルユニットとTensor Core上で100〜1000倍効率的に実行
- CPUはGPUに比べて行列演算性能が極めて低く、支援役へと格下げされ、電力もGPUに優先配分
- CPUの活用は2つに分化:
- ヘッドノード: GPUにデータを供給・管理し、高いコア性能・大容量キャッシュ・高帯域幅メモリが必要(NVIDIA Grace、Venice+MI455X、Graviton5+Trainium3など)
- クラウドネイティブなソケット統合: 電力効率最大化のため、旧世代サーバーを最新CPUで10:1以上の比率で置き換え、COVID期に購入した数百万台のIntel Cascade Lakeサーバーが退役中
-
強化学習・エージェント時代
- MicrosoftのOpenAI向け「Fairwater」データセンターでは、48MWのCPU・ストレージ棟が295MWのGPUクラスターを支え、数万個のCPUがペタバイト級データ処理に投入
- **強化学習(RL)**環境では、モデルが生成した行動を実行して報酬を計算するため、コードのコンパイル、検証、解釈、ツール利用などに大量のCPUが必要
- GPU性能の向上速度がCPUを大きく上回っており、今後Rubin世代ではCPU対GPUの電力比率が1:6以上に拡大する可能性
- RAGモデルとエージェント型モデルがAPI呼び出し、インターネット検索、データベースクエリを大規模に実行し、汎用CPU需要が急増
- AWSとAzureは独自のGraviton・Cobalt CPUとx86サーバーを大量配備中
- Frontier AI研究所はRL学習向けCPU不足に直面し、クラウド事業者と汎用x86サーバーの確保を巡って直接競争
- Intelは予想外の在庫枯渇を受けてXeonの値上げを検討し、追加の生産ツールを確保中
- AMDは供給能力を拡大しており、2026年のサーバーCPU TAMが**「力強い二桁成長」**になると見込んでいる
マルチコアCPUインターコネクトの歴史
-
初期のクロスバー設計と限界
- 初期のデュアルコア(Intel Pentium D、AMD Athlon 64 X2、2005年)では FSB(Front Side Bus)またはオンダイNoCベースの接続
- クロスバー方式はコア数の増加に伴って接続数が急増し(2コア=1、4コア=6、6コア=15、8コア=28)、4コアが実質的な限界
- AMD Istanbul(2009)は6-wayクロスバー、Magny-Cours(2010)はデュアルダイ12コア、Interlagosは16コアへ拡張
-
Intelリングバスアーキテクチャ
- Intel Nehalem-EX(2010)でリングバスを導入し、8コアを単一ダイに統合、IMCとQPIリンクを含む
- 二重の逆回転リングによりレイテンシと混雑を緩和、コア間アクセスのレイテンシは 非均一(NUMA)
- Ivy Bridge-EX: 3列5行配置で3つの「仮想リング」により15コアを達成
- Haswell/Broadwell: デュアル独立リングバスにより18〜24コア、ただしリング間の バッファードスイッチ 通過時に100ns以上の遅延が発生
- 「Cluster on Die」構成で2つのNUMAノードに分離可能
-
Intelメッシュアーキテクチャ
- 2016年の Xeon Phi "Knights Landing" でメッシュインターコネクトを導入し、2017年のSkylake-X Xeon Scalable(28コア)へ拡大
- 2D格子配列でコア・L3キャッシュスライス・PCIe IO・IMC・アクセラレータを各メッシュストップに配置
- Sub-NUMA Clustering(SNC) モードでメッシュを4分割し、平均レイテンシを低減
- Skylake-X: 6x6メッシュ、メッシュクロック2.4GHzでBroadwellデュアルリングに近い平均レイテンシを達成
- Ice Lake: 10nm移行により8x7メッシュで40コアまで拡張(レチクル限界)
-
EMIBによる分散メッシュ
- Sapphire Rapids: Intel 7ノードでは単一モノリシックダイで34コアにとどまり、AMXエンジン の追加でコア面積が増加
- EMIBアドバンストパッケージング で4つのダイを接続し、8x12メッシュ構成で60コアを達成(約1600mm²のシリコン)
- コア間の平均レイテンシが47ns(Skylake)から 59ns に悪化
- 各コアのプライベート L2キャッシュを2MBに増加(総L2 > L3: 120MB vs 112.5MB)
- E5ステッピングまで進みながら数年にわたり遅延し、当初は2021年予定だったが2023年初頭に発売
- Emerald Rapids(2023年末): ダイ数を2つに減らし、コア数66個(最大64個有効)、L3キャッシュを 320MBへほぼ3倍に増加
- Sapphire Rapids: Intel 7ノードでは単一モノリシックダイで34コアにとどまり、AMXエンジン の追加でコア面積が増加
-
Xeon 6の異種分散設計
- 2024年のXeon 6プラットフォームでは I/Oとコンピュートを異種分離: I/OダイはIntel 7、コンピュートダイは Intel 3
- PコアのGranite RapidsとEコアの Sierra Forest 構成を混在可能
- Granite Rapids-AP Xeon 6900P: 3つのコンピュートダイで 10x19メッシュ、132コア(最大128コア有効)
- Sierra Forest: Eコア4つをクラスター化して8x6メッシュで 144コア、ただしハイパースケーラーはすでにAMD・独自ARM CPUを採用しており導入は限定的
- デュアルダイ288コアのSierra Forest-AP(Xeon 6900E)は少量生産にとどまる
-
Clearwater Forestの限界
- Xeon 6+ Clearwater Forest-AP: Intelの Foveros Direct ハイブリッドボンディングにより、18AコアダイをIntel 3ベースダイ上に積層し、288コアを達成
- 12個の24コアコンピュートダイで構成された複雑な設計
- Foveros Direct統合の問題により 2025年下期から2026年上期へ延期
- 4コアクラスター当たり、ベースダイのL3・メッシュアクセス帯域幅は 35GB/sにすぎない
- 2年の間隔があるにもかかわらず、Sierra Forest比で同一コア数基準 17%の性能向上にとどまる
- Intelは2025年Q4決算発表でClearwater Forestにほとんど言及せず、高ボリューム生産よりも Foveros Directの歩留まり学習用ビークル として活用する可能性
AMD Zenインターコネクトアーキテクチャ
-
EPYC Naples(2017)
- AMDのデータセンター復帰作として、4つの「Zeppelin」ダイをMCMで構成し32コアを達成
- 各ダイに2つのCCX(4コア+8MB L3、クロスバー接続)、ダイ間は Infinity Fabric on Package(IFOP) リンク
- 統合L3キャッシュの不在と多数のNUMAドメイン(Intra-CCX、Inter-CCX、Die-to-die、Inter-Socket)により レイテンシのばらつきが大きい
- Intelは「4つのデスクトップダイを接着したもの」と揶揄したが、小規模チームによる資源効率の高い設計だった
-
EPYC Rome(2019)以降の世代進化
- Rome: 中央I/Oダイの周囲に8つの 8コアCCD を配置、CCDはTSMC N7、I/OダイはGlobalFoundries 12nm
- すべてのCCX間通信がI/Oダイを経由する GMIリンク 方式で、機能的には16個の4コアNUMAノード
- Milan(2021): CCXサイズを8コアに拡大しつつリングバスを採用、RomeのI/Oダイを再利用
- Genoa(2022): 12個のCCD、Turin(2024): 最大16個のCCDで128コア(EPYC 9755)、DDR5・PCIe 5にアップグレード
- チップレット設計の中核的利点: 単一CCDのテープアウトで 全コア数ラインアップを構成 でき、小型ダイにより歩留まり・投入速度で有利
- コンパクトなZen 4c/Zen 5cコア派生により、Bergamo(Zen 4c)、Turin-Dense(192コア)も同一プラットフォームで提供
- Rome: 中央I/Oダイの周囲に8つの 8コアCCD を配置、CCDはTSMC N7、I/OダイはGlobalFoundries 12nm
Intel Diamond Rapidsアーキテクチャ
- 4つの CBB(Core Building Block)ダイが2つの IMH(I/O and Memory Hub)ダイを囲む構造で、AMD設計と外見上は類似
- 各CBB内の32個のデュアルコアモジュール(DCM)はIntel 18A-P で製造され、Intel 3-PTベースダイにハイブリッドボンディング
- 2コアが共通L2キャッシュを共有し、2008年のDunnington世代を想起させる設計
- 総計256コアだが、メインストリームSKUでは 最大192コア の有効化が見込まれる
- IMHダイ: 16チャネルDDR5、PCIe 6(CXL 3対応)、Intelデータパスアクセラレータ(QAT、DLB、IAA、DSA)
- EMIBの代わりに パッケージ基板上の長距離配線 でダイ間接続を行い、各CBBが両側のIMHへ直接アクセス可能
- ただしクロスCBB レイテンシはかなり悪化 すると予想される
-
SMT削除の問題
- Spectre/Meltdown以降、IntelはPコアで SMTを削除 し、2024年のクライアント向けLion Coveから適用
- データセンターでは最大スループットが重要なため、Diamond Rapidsにとって 深刻な弱点
- 現行Granite Rapidsの128コア/256スレッドに対し、192コア/192スレッドのDiamond Rapidsは約 40%の性能向上にとどまる見通し
- メインストリーム8チャネルの Diamond Rapids-SPプラットフォームを全面中止、少なくとも2028年まで当該市場に次世代製品が不在
- AIツール利用・コンテキストストレージに必要な汎用コンピューティングCPU市場を取り逃す結果
AMD Veniceアーキテクチャ
- AMDが初めて先進パッケージング技術を採用し、高速短距離リンクでCCDとI/Oダイを接続
- CCDリンク用の追加ショアラインにより中央I/Oハブが2つのダイに分離され、チップ両側間で追加のNUMAドメインが発生
- 16メモリチャネル(Genoaの12チャネルから増加)、MRDIMM-12800多重化メモリにより1.64TB/sの帯域幅(Turin比2.67倍)
- CCD内部にメッシュネットワークを導入:32個のZen6cコアを4x8格子に配置、TSMC N2プロセス
- 8個のCCDで合計256コア、Turin-Denseの192コア比で1/3増加
- Zen6cにコア当たり4MB L3キャッシュを全量割り当て(従来のZen5cは半分)、CCD当たり128MBのキャッシュ領域
- AIヘッドノード向けの低コア・高クロック「-F」SKU:デスクトップ/モバイル向け12コアZen6 CCDを活用し、最大96コア
- I/Oダイ横のDDR5インターフェース付近に8個の小型IPD(Integrated Passive Device)を配置し、電力供給を安定化
-
Veniceの性能と新命令
- 256コア最上位モデルは、192コアのTurin比でSPECrate®2017_int_baseにおいてワット当たり性能が1.7倍以上
- Zen 6マイクロアーキテクチャで高いIPC(Instructions per Clock)向上
- 新しいAIデータ型命令:AVX512_FP16、AVX_VVNI_INT8、AVX512_BMM(ビット行列乗算)
- BMM:FPUレジスタに16x16バイナリ行列を格納し、OR・XOR演算でBMM累積を実行
- Verilogシミュレーションなどには有効だが、LLMでは精度不足のため採用は限定的との見通し
- AMDの96コアTurinがIntelの128コアGranite Rapidsと同等の状況で、VeniceとDiamond Rapidsの間では性能格差がさらに拡大する見込み
- Intelが8チャネルプロセッサを取りやめた一方、AMDは新しい8チャネルVenice SP8プラットフォームを導入し、EPYC 8004 Sienaの後継として最大128コアのZen 6cを提供
- Intelの伝統的な強みであるエンタープライズ市場でAMDのシェア拡大が予想される
NVIDIA GraceとVera
-
Grace CPU
- GPUヘッドノードと拡張GPUメモリ向けの設計で、NVLink-C2C(双方向900GB/s)によりGPUがCPUメモリへフル帯域でアクセス
- モバイル向けのLPDDR5Xメモリを採用し、512ビットメモリバスで500GB/sの帯域幅、CPU当たり最大480GB
- ARM Neoverse V2コア72個(76個中アクティブ)、6x7メッシュ、117MB L3キャッシュ
- メッシュネットワークの双方向分割帯域幅は3.2TB/sで、データフローに特化
- マイクロアーキテクチャ上のボトルネック:Branch Target Bufferは24リージョン超で性能が急落し、32リージョン超では64MBバッファ全体のフラッシュが発生
- 最適化されていないHPCコードでは50%の性能低下が起き、GB200/GB300のAIワークロードにも影響
-
Vera CPU(2026年)
- Rubinプラットフォーム向けにC2C帯域幅を1.8TB/sへ倍増
- 8個の128ビットSOCAMMモジュールにより1.5TBのメモリ、1.2TB/sの帯域幅
- 7x13メッシュで91コア(88個アクティブ)、L3キャッシュは162MB
- CoWoS-Rパッケージング:3nmのレチクルサイズ計算ダイ1個 + LPDDR5メモリダイ4個 + PCIe6/CXL3 IOダイ1個(合計6ダイ)
- Neoverseコアの性能ボトルネックから脱し、独自設計のOlympusコアへ回帰
- 88コア/176スレッド(SMT対応)、ARMv9.2、FPUは6x 128bポート(Neoverse V2の4個から拡張)
- ARM SVE2 FP8演算に対応し、コア当たり2MB L2キャッシュ(Grace比2倍)
- 全体として2倍の性能向上
AWS Graviton5
- AWSは独自CPUをクラウドへ初めて成功裏に展開したハイパースケーラーで、Annapurna Labsの買収とARM Neoverse CSSを活用
- Graviton2:COVIDブーム期の大幅値引きでARM移行を促進、64個のNeoverse N1コア
- Graviton3:Neoverse V1によりコア当たり浮動小数点性能が2倍、EMIBチップレット設計、DDR5・PCIe5をAMD・Intelより1年早く導入
- Graviton4:Neoverse V2コア96個、12チャネルメモリ、PCIe5 96レーン、デュアルソケット対応
- Graviton5(2025年12月プレビュー):192個のNeoverse V3コア、TSMC 3nm、1720億トランジスタ
- L3キャッシュは192MB(Graviton4の36MBから大幅増)、12チャネルDDR5-8800
- PCIe6へ更新する一方、レーン数は96→64本に減少(未使用レーンのコスト最適化)
- 8x12メッシュで、2コアがメッシュストップを共有し、複数の計算ダイ分割と新しいパッケージング戦略を採用
- AWSは社内で数千個のGraviton CPUをCI/CD・EDAに利用し、次世代Graviton・Trainium・Nitroの設計に活用(自社ドッグフーディング)
- Trainium3アクセラレータはGraviton CPUをヘッドノードとして使用(1 CPU : 4 XPU)
Microsoft Cobalt 200
- Cobalt 100(2023年、128 Neoverse N2コア)の後継として2025年末に投入
- 132個のNeoverse V3コア、コア当たり3MB L2キャッシュ、TSMC 3nm計算ダイ2個
- ダイ当たり8x8メッシュ、72コア実装/66コア有効、192MB L3キャッシュ、6チャネルDDR5、64レーンPCIe6
- Cobalt 100比で50%の性能向上
- Azureの汎用CPUコンピューティングサービス専用で、AIヘッドノードには未使用(Microsoft Maia 200はIntel Granite Rapidsを採用)
Google Axion C4A、N4A
- 2024年発表・2025年GAで、GoogleがGCPカスタムシリコンCPU市場へ参入
- Axion C4A:最大72個のNeoverse V2コア、8チャネルDDR5、PCIe5、モノリシック5nmダイ(81コア実装、9x9メッシュ)
- 2025年末にプレビューされた96コアベアメタルインスタンス向けの新しい3nmダイ設計と推定
- Axion N4A:コスト効率の高いスケールアウト向け、64個のNeoverse N3コア、TSMC 3nmのフルカスタム設計
- Googleは社内インフラ(Gmail、YouTube、Google Playなど)をARMへ移行中で、将来はTPUクラスターのヘッドノードにもAxionを配備する計画
Ampere ComputingとSoftBankによる買収
- マーチャントARMシリコンの先駆者としてOracleと提携し、Altra(80コア)とAltra Max(128コア)でx86独占に挑戦
- Neoverse N1コア、独自メッシュインターコネクト(4コアクラスタ)、8チャネルDDR4、128 PCIe4レーン、TSMC 7nm単一ダイ
- AmpereOne:5nmプロセス、192コア、I/Oチップレット分離(DDR5・PCIe)、インターポーザ不要のMCM設計
- カスタムARMコア(コア密度最適化) + 2MB L2キャッシュ(ノイジーネイバー問題を緩和)
- チップレット再利用により、12チャネルAmpereOne-M、3nm 256コアAmpereOne-MXなどの派生計画
- 2025年にSoftBankが65億ドルで買収、Stargateベンチャー向けのCPU設計人材確保が目的
- Ampere失敗の原因:
- Altra世代はARMネイティブソフトウェアが未成熟な時期に投入が早すぎた
- AmpereOneは度重なる遅延で2024年下半期になってようやく利用可能となり、その時点ではハイパースケーラーのARM CPUが本格化し、AMDが3〜4倍高いコア当たり性能で192コアを提供
- OracleのAmpere CPU購入額:FY2023 4800万ドル → FY2024 300万ドル → FY2025 370万ドルへ急減
ARM Phoenix
- ARMは2026年にフルデータセンターCPUの設計・販売事業へ参入し、既存のNeoverse CSSライセンス顧客と直接競合
- 現在までにデータセンターCPU・DPUへ10億個以上のNeoverseコアを展開、12社向けに21件のCSSライセンス
- データセンターのロイヤリティ収益は前年比で2倍以上成長、今後数年以内にCSSがロイヤリティ収益の50%以上を占める見通し
- Phoenix:128基のNeoverse V3コア、ARM CMNメッシュ、TSMC 3nmのハーフレチクル2ダイ
- 12チャネルDDR5(8400MT/s)、96レーンのPCIe Gen 6、TDPは250〜350Wに設定可能
- 最初の顧客はMetaで、OpenAI(Stargate/SoftBankベンチャー)とCloudflareも顧客候補
- PCIe6ベースのAccelerator Enablement Kitにより、XPUとコヒーレント共有メモリ接続が可能
Huawei Kunpeng
-
Kunpeng 920および920B
- 初期世代(Hi1610〜Kunpeng 916):ARM Cortex A57→A72、TSMC 16nm
- Kunpeng 920(2019):64コアのカスタムTaiShan V110、2つのTSMC 7nmコンピュートダイ、CoWoS-Sパッケージング(CPUとして初のCoWoS-S適用)
- 8チャネルDDR4、40 PCIe4レーン、デュアル100GbE統合
- 米国の制裁でTSMCからの供給が遮断され、次世代Kunpeng 930は未発売
- Kunpeng 920B(2024):TaiShan V120コアにSMTをサポート、ダイ当たり10個の4コアクラスタ(合計80コア/160スレッド)
- 8チャネルDDR5、I/Oダイを分離配置、SMIC N+2プロセスで再設計(5年の空白)
-
Kunpeng 950(2026)
- 192コアの新型LinxiCore(SMT対応)、96コアの小型版も生産
- TaiShan 950 SuperPoDラック構成:16台のデュアルソケットサーバー、最大48TB DDR5(12チャネルと推定)
- Kunpeng 920B比でOLTPデータベース性能が2.9倍向上(GaussDB Multi-Writeベース)
- Oracle Exadataデータベースサーバーおよび中国の金融業界で採用予定
- SMIC N+3プロセスで生産と推定
-
Kunpeng 960(2028ロードマップ)
- 高性能版:96コア/192スレッド、AIヘッドノード・データベース向け、コア当たり性能が50%以上向上
- 高密度版:仮想化・クラウド向け256コア以上
- 中国のハイパースケーラーCPU市場で相当なシェア確保が見込まれる
まだコメントはありません。