CPUの帰還：2026年のデータセンターCPU市場展望

(newsletter.semianalysis.com)

5 ポイント投稿者 GN⁺ 2026-02-10 | まだコメントはありません。 | WhatsAppで共有

強化学習とエージェント型AI推論への需要が爆発的に拡大し、データセンターにおけるCPUの役割が再び急浮上、GPU中心だった投資の流れに変化が生じている
Intelは2025年末に予想外のサーバーCPU需要急増を経験し、2026年にファウンドリ設備投資を拡大、PC向けウェハーをサーバー向けに転換している
AMD VeniceはTSMCのN2プロセスベースの256コアZen6c CCDとメッシュネットワークを導入し、性能・電力効率の両面でIntelとの差がさらに広がる見通し
NVIDIA、AWS、Microsoft、Google、ARMなど、ハイパースケーラー独自ARM CPU陣営が本格的に拡大し、x86の独占構造は急速に崩れつつある
Huawei Kunpeng 950まで含め、2026年はすべてのベンダーが新世代CPUを同時投入する前例のない競争の年

データセンターCPUの役割変化と進化

PC時代からドットコム時代まで
- 1990年代、PCプロセッサの性能向上によってメインフレームやワークステーションを代替する需要が生まれ、IntelはPentium Pro（1995）とXeonブランド（1998）でサーバー市場に参入
- 2000年代のインターネット時代には、Web 2.0、電子商取引、スマートフォンの普及により、データセンターCPUは数十億ドル規模の市場へと成長
- GHz競争の終息後、マルチコアCPUやメモリコントローラ統合（AMD）、PCIe直接接続などの設計革新が進行
- SMT（Simultaneous Multi-Threading）がIntelとAMDの両社で導入され、並列処理性能が向上
仮想化・クラウドコンピューティング・ハイパースケーラー時代
- 2000年代後半、AWSなどのパブリッククラウドの登場により、CapExからOpExモデルへ移行し、サーバーレスコンピューティング（AWS Lambdaなど）へと発展
- CPUハードウェア仮想化がクラウドの中核基盤となり、ハイパーバイザー（VMware ESXiなど）が単一CPU上で多数の独立したVMを運用
- 2018年のSpectreとMeltdown脆弱性によってSMT無効化の必要性が浮上し、最大30%の性能損失が発生
  - 分岐予測機能を利用した攻撃により、クラウドセキュリティの脅威が現実化
AI GPUとCPUの統合時代
- ChatGPTのリリース（2022年11月）以前の5年間で、Intelは1億個以上のXeon Scalable CPUを出荷
- AIモデルの学習・推論は、GPUの大規模ベクトルユニットとTensor Core上で100〜1000倍効率的に実行
- CPUはGPUに比べて行列演算性能が極めて低く、支援役へと格下げされ、電力もGPUに優先配分
- CPUの活用は2つに分化:
  - ヘッドノード: GPUにデータを供給・管理し、高いコア性能・大容量キャッシュ・高帯域幅メモリが必要（NVIDIA Grace、Venice+MI455X、Graviton5+Trainium3など）
  - クラウドネイティブなソケット統合: 電力効率最大化のため、旧世代サーバーを最新CPUで10:1以上の比率で置き換え、COVID期に購入した数百万台のIntel Cascade Lakeサーバーが退役中
強化学習・エージェント時代
- MicrosoftのOpenAI向け「Fairwater」データセンターでは、48MWのCPU・ストレージ棟が295MWのGPUクラスターを支え、数万個のCPUがペタバイト級データ処理に投入
- **強化学習（RL）**環境では、モデルが生成した行動を実行して報酬を計算するため、コードのコンパイル、検証、解釈、ツール利用などに大量のCPUが必要
  - GPU性能の向上速度がCPUを大きく上回っており、今後Rubin世代ではCPU対GPUの電力比率が1:6以上に拡大する可能性
- RAGモデルとエージェント型モデルがAPI呼び出し、インターネット検索、データベースクエリを大規模に実行し、汎用CPU需要が急増
- AWSとAzureは独自のGraviton・Cobalt CPUとx86サーバーを大量配備中
- Frontier AI研究所はRL学習向けCPU不足に直面し、クラウド事業者と汎用x86サーバーの確保を巡って直接競争
- Intelは予想外の在庫枯渇を受けてXeonの値上げを検討し、追加の生産ツールを確保中
- AMDは供給能力を拡大しており、2026年のサーバーCPU TAMが**「力強い二桁成長」**になると見込んでいる

マルチコアCPUインターコネクトの歴史

初期のクロスバー設計と限界
- 初期のデュアルコア（Intel Pentium D、AMD Athlon 64 X2、2005年）では FSB（Front Side Bus）またはオンダイNoCベースの接続
- クロスバー方式はコア数の増加に伴って接続数が急増し（2コア=1、4コア=6、6コア=15、8コア=28）、4コアが実質的な限界
- AMD Istanbul（2009）は6-wayクロスバー、Magny-Cours（2010）はデュアルダイ12コア、Interlagosは16コアへ拡張
Intelリングバスアーキテクチャ
- Intel Nehalem-EX（2010）でリングバスを導入し、8コアを単一ダイに統合、IMCとQPIリンクを含む
- 二重の逆回転リングによりレイテンシと混雑を緩和、コア間アクセスのレイテンシは 非均一（NUMA）
- Ivy Bridge-EX: 3列5行配置で3つの「仮想リング」により15コアを達成
- Haswell/Broadwell: デュアル独立リングバスにより18〜24コア、ただしリング間の バッファードスイッチ 通過時に100ns以上の遅延が発生
  - 「Cluster on Die」構成で2つのNUMAノードに分離可能
Intelメッシュアーキテクチャ
- 2016年の Xeon Phi "Knights Landing" でメッシュインターコネクトを導入し、2017年のSkylake-X Xeon Scalable（28コア）へ拡大
- 2D格子配列でコア・L3キャッシュスライス・PCIe IO・IMC・アクセラレータを各メッシュストップに配置
- Sub-NUMA Clustering（SNC） モードでメッシュを4分割し、平均レイテンシを低減
- Skylake-X: 6x6メッシュ、メッシュクロック2.4GHzでBroadwellデュアルリングに近い平均レイテンシを達成
- Ice Lake: 10nm移行により8x7メッシュで40コアまで拡張（レチクル限界）
EMIBによる分散メッシュ
- Sapphire Rapids: Intel 7ノードでは単一モノリシックダイで34コアにとどまり、AMXエンジン の追加でコア面積が増加
  - EMIBアドバンストパッケージング で4つのダイを接続し、8x12メッシュ構成で60コアを達成（約1600mm²のシリコン）
  - コア間の平均レイテンシが47ns（Skylake）から 59ns に悪化
  - 各コアのプライベート L2キャッシュを2MBに増加（総L2 > L3: 120MB vs 112.5MB）
  - E5ステッピングまで進みながら数年にわたり遅延し、当初は2021年予定だったが2023年初頭に発売
- Emerald Rapids（2023年末）: ダイ数を2つに減らし、コア数66個（最大64個有効）、L3キャッシュを 320MBへほぼ3倍に増加
Xeon 6の異種分散設計
- 2024年のXeon 6プラットフォームでは I/Oとコンピュートを異種分離: I/OダイはIntel 7、コンピュートダイは Intel 3
- PコアのGranite RapidsとEコアの Sierra Forest 構成を混在可能
- Granite Rapids-AP Xeon 6900P: 3つのコンピュートダイで 10x19メッシュ、132コア（最大128コア有効）
- Sierra Forest: Eコア4つをクラスター化して8x6メッシュで 144コア、ただしハイパースケーラーはすでにAMD・独自ARM CPUを採用しており導入は限定的
  - デュアルダイ288コアのSierra Forest-AP（Xeon 6900E）は少量生産にとどまる
Clearwater Forestの限界
- Xeon 6+ Clearwater Forest-AP: Intelの Foveros Direct ハイブリッドボンディングにより、18AコアダイをIntel 3ベースダイ上に積層し、288コアを達成
- 12個の24コアコンピュートダイで構成された複雑な設計
- Foveros Direct統合の問題により 2025年下期から2026年上期へ延期
- 4コアクラスター当たり、ベースダイのL3・メッシュアクセス帯域幅は 35GB/sにすぎない
- 2年の間隔があるにもかかわらず、Sierra Forest比で同一コア数基準 17%の性能向上にとどまる
- Intelは2025年Q4決算発表でClearwater Forestにほとんど言及せず、高ボリューム生産よりも Foveros Directの歩留まり学習用ビークル として活用する可能性

AMD Zenインターコネクトアーキテクチャ

EPYC Naples（2017）
- AMDのデータセンター復帰作として、4つの「Zeppelin」ダイをMCMで構成し32コアを達成
- 各ダイに2つのCCX（4コア+8MB L3、クロスバー接続）、ダイ間は Infinity Fabric on Package（IFOP） リンク
- 統合L3キャッシュの不在と多数のNUMAドメイン（Intra-CCX、Inter-CCX、Die-to-die、Inter-Socket）により レイテンシのばらつきが大きい
- Intelは「4つのデスクトップダイを接着したもの」と揶揄したが、小規模チームによる資源効率の高い設計だった
EPYC Rome（2019）以降の世代進化
- Rome: 中央I/Oダイの周囲に8つの 8コアCCD を配置、CCDはTSMC N7、I/OダイはGlobalFoundries 12nm
  - すべてのCCX間通信がI/Oダイを経由する GMIリンク 方式で、機能的には16個の4コアNUMAノード
- Milan（2021）: CCXサイズを8コアに拡大しつつリングバスを採用、RomeのI/Oダイを再利用
- Genoa（2022）: 12個のCCD、Turin（2024）: 最大16個のCCDで128コア（EPYC 9755）、DDR5・PCIe 5にアップグレード
- チップレット設計の中核的利点: 単一CCDのテープアウトで 全コア数ラインアップを構成 でき、小型ダイにより歩留まり・投入速度で有利
- コンパクトなZen 4c/Zen 5cコア派生により、Bergamo（Zen 4c）、Turin-Dense（192コア）も同一プラットフォームで提供

Intel Diamond Rapidsアーキテクチャ

4つの CBB（Core Building Block）ダイが2つの IMH（I/O and Memory Hub）ダイを囲む構造で、AMD設計と外見上は類似
各CBB内の32個のデュアルコアモジュール（DCM）はIntel 18A-P で製造され、Intel 3-PTベースダイにハイブリッドボンディング
- 2コアが共通L2キャッシュを共有し、2008年のDunnington世代を想起させる設計
総計256コアだが、メインストリームSKUでは 最大192コア の有効化が見込まれる
IMHダイ: 16チャネルDDR5、PCIe 6（CXL 3対応）、Intelデータパスアクセラレータ（QAT、DLB、IAA、DSA）
EMIBの代わりに パッケージ基板上の長距離配線 でダイ間接続を行い、各CBBが両側のIMHへ直接アクセス可能
- ただしクロスCBB レイテンシはかなり悪化 すると予想される
SMT削除の問題
- Spectre/Meltdown以降、IntelはPコアで SMTを削除 し、2024年のクライアント向けLion Coveから適用
- データセンターでは最大スループットが重要なため、Diamond Rapidsにとって 深刻な弱点
- 現行Granite Rapidsの128コア/256スレッドに対し、192コア/192スレッドのDiamond Rapidsは約 40%の性能向上にとどまる見通し
- メインストリーム8チャネルの Diamond Rapids-SPプラットフォームを全面中止、少なくとも2028年まで当該市場に次世代製品が不在
  - AIツール利用・コンテキストストレージに必要な汎用コンピューティングCPU市場を取り逃す結果

AMD Veniceアーキテクチャ

AMDが初めて先進パッケージング技術を採用し、高速短距離リンクでCCDとI/Oダイを接続
CCDリンク用の追加ショアラインにより中央I/Oハブが2つのダイに分離され、チップ両側間で追加のNUMAドメインが発生
16メモリチャネル（Genoaの12チャネルから増加）、MRDIMM-12800多重化メモリにより1.64TB/sの帯域幅（Turin比2.67倍）
CCD内部にメッシュネットワークを導入：32個のZen6cコアを4x8格子に配置、TSMC N2プロセス
8個のCCDで合計256コア、Turin-Denseの192コア比で1/3増加
Zen6cにコア当たり4MB L3キャッシュを全量割り当て（従来のZen5cは半分）、CCD当たり128MBのキャッシュ領域
AIヘッドノード向けの低コア・高クロック「-F」SKU：デスクトップ/モバイル向け12コアZen6 CCDを活用し、最大96コア
I/Oダイ横のDDR5インターフェース付近に8個の小型IPD（Integrated Passive Device）を配置し、電力供給を安定化
Veniceの性能と新命令
- 256コア最上位モデルは、192コアのTurin比でSPECrate®2017_int_baseにおいてワット当たり性能が1.7倍以上
- Zen 6マイクロアーキテクチャで高いIPC（Instructions per Clock）向上
- 新しいAIデータ型命令：AVX512_FP16、AVX_VVNI_INT8、AVX512_BMM（ビット行列乗算）
  - BMM：FPUレジスタに16x16バイナリ行列を格納し、OR・XOR演算でBMM累積を実行
  - Verilogシミュレーションなどには有効だが、LLMでは精度不足のため採用は限定的との見通し
- AMDの96コアTurinがIntelの128コアGranite Rapidsと同等の状況で、VeniceとDiamond Rapidsの間では性能格差がさらに拡大する見込み
- Intelが8チャネルプロセッサを取りやめた一方、AMDは新しい8チャネルVenice SP8プラットフォームを導入し、EPYC 8004 Sienaの後継として最大128コアのZen 6cを提供
  - Intelの伝統的な強みであるエンタープライズ市場でAMDのシェア拡大が予想される

NVIDIA GraceとVera

Grace CPU
- GPUヘッドノードと拡張GPUメモリ向けの設計で、NVLink-C2C（双方向900GB/s）によりGPUがCPUメモリへフル帯域でアクセス
- モバイル向けのLPDDR5Xメモリを採用し、512ビットメモリバスで500GB/sの帯域幅、CPU当たり最大480GB
- ARM Neoverse V2コア72個（76個中アクティブ）、6x7メッシュ、117MB L3キャッシュ
- メッシュネットワークの双方向分割帯域幅は3.2TB/sで、データフローに特化
- マイクロアーキテクチャ上のボトルネック：Branch Target Bufferは24リージョン超で性能が急落し、32リージョン超では64MBバッファ全体のフラッシュが発生
  - 最適化されていないHPCコードでは50%の性能低下が起き、GB200/GB300のAIワークロードにも影響
Vera CPU（2026年）
- Rubinプラットフォーム向けにC2C帯域幅を1.8TB/sへ倍増
- 8個の128ビットSOCAMMモジュールにより1.5TBのメモリ、1.2TB/sの帯域幅
- 7x13メッシュで91コア（88個アクティブ）、L3キャッシュは162MB
- CoWoS-Rパッケージング：3nmのレチクルサイズ計算ダイ1個 + LPDDR5メモリダイ4個 + PCIe6/CXL3 IOダイ1個（合計6ダイ）
- Neoverseコアの性能ボトルネックから脱し、独自設計のOlympusコアへ回帰
  - 88コア/176スレッド（SMT対応）、ARMv9.2、FPUは6x 128bポート（Neoverse V2の4個から拡張）
  - ARM SVE2 FP8演算に対応し、コア当たり2MB L2キャッシュ（Grace比2倍）
  - 全体として2倍の性能向上

AWS Graviton5

AWSは独自CPUをクラウドへ初めて成功裏に展開したハイパースケーラーで、Annapurna Labsの買収とARM Neoverse CSSを活用
Graviton2：COVIDブーム期の大幅値引きでARM移行を促進、64個のNeoverse N1コア
Graviton3：Neoverse V1によりコア当たり浮動小数点性能が2倍、EMIBチップレット設計、DDR5・PCIe5をAMD・Intelより1年早く導入
Graviton4：Neoverse V2コア96個、12チャネルメモリ、PCIe5 96レーン、デュアルソケット対応
Graviton5（2025年12月プレビュー）：192個のNeoverse V3コア、TSMC 3nm、1720億トランジスタ
- L3キャッシュは192MB（Graviton4の36MBから大幅増）、12チャネルDDR5-8800
- PCIe6へ更新する一方、レーン数は96→64本に減少（未使用レーンのコスト最適化）
- 8x12メッシュで、2コアがメッシュストップを共有し、複数の計算ダイ分割と新しいパッケージング戦略を採用
AWSは社内で数千個のGraviton CPUをCI/CD・EDAに利用し、次世代Graviton・Trainium・Nitroの設計に活用（自社ドッグフーディング）
Trainium3アクセラレータはGraviton CPUをヘッドノードとして使用（1 CPU : 4 XPU）

Microsoft Cobalt 200

Cobalt 100（2023年、128 Neoverse N2コア）の後継として2025年末に投入
132個のNeoverse V3コア、コア当たり3MB L2キャッシュ、TSMC 3nm計算ダイ2個
ダイ当たり8x8メッシュ、72コア実装/66コア有効、192MB L3キャッシュ、6チャネルDDR5、64レーンPCIe6
Cobalt 100比で50%の性能向上
Azureの汎用CPUコンピューティングサービス専用で、AIヘッドノードには未使用（Microsoft Maia 200はIntel Granite Rapidsを採用）

Google Axion C4A、N4A

2024年発表・2025年GAで、GoogleがGCPカスタムシリコンCPU市場へ参入
Axion C4A：最大72個のNeoverse V2コア、8チャネルDDR5、PCIe5、モノリシック5nmダイ（81コア実装、9x9メッシュ）
- 2025年末にプレビューされた96コアベアメタルインスタンス向けの新しい3nmダイ設計と推定
Axion N4A：コスト効率の高いスケールアウト向け、64個のNeoverse N3コア、TSMC 3nmのフルカスタム設計
Googleは社内インフラ（Gmail、YouTube、Google Playなど）をARMへ移行中で、将来はTPUクラスターのヘッドノードにもAxionを配備する計画

Ampere ComputingとSoftBankによる買収

マーチャントARMシリコンの先駆者としてOracleと提携し、Altra（80コア）とAltra Max（128コア）でx86独占に挑戦
- Neoverse N1コア、独自メッシュインターコネクト（4コアクラスタ）、8チャネルDDR4、128 PCIe4レーン、TSMC 7nm単一ダイ
AmpereOne：5nmプロセス、192コア、I/Oチップレット分離（DDR5・PCIe）、インターポーザ不要のMCM設計
- カスタムARMコア（コア密度最適化） + 2MB L2キャッシュ（ノイジーネイバー問題を緩和）
- チップレット再利用により、12チャネルAmpereOne-M、3nm 256コアAmpereOne-MXなどの派生計画
2025年にSoftBankが65億ドルで買収、Stargateベンチャー向けのCPU設計人材確保が目的
Ampere失敗の原因：
- Altra世代はARMネイティブソフトウェアが未成熟な時期に投入が早すぎた
- AmpereOneは度重なる遅延で2024年下半期になってようやく利用可能となり、その時点ではハイパースケーラーのARM CPUが本格化し、AMDが3〜4倍高いコア当たり性能で192コアを提供
- OracleのAmpere CPU購入額：FY2023 4800万ドル → FY2024 300万ドル → FY2025 370万ドルへ急減

ARM Phoenix

ARMは2026年にフルデータセンターCPUの設計・販売事業へ参入し、既存のNeoverse CSSライセンス顧客と直接競合
現在までにデータセンターCPU・DPUへ10億個以上のNeoverseコアを展開、12社向けに21件のCSSライセンス
データセンターのロイヤリティ収益は前年比で2倍以上成長、今後数年以内にCSSがロイヤリティ収益の50％以上を占める見通し
Phoenix：128基のNeoverse V3コア、ARM CMNメッシュ、TSMC 3nmのハーフレチクル2ダイ
- 12チャネルDDR5（8400MT/s）、96レーンのPCIe Gen 6、TDPは250〜350Wに設定可能
- 最初の顧客はMetaで、OpenAI（Stargate/SoftBankベンチャー）とCloudflareも顧客候補
- PCIe6ベースのAccelerator Enablement Kitにより、XPUとコヒーレント共有メモリ接続が可能

Huawei Kunpeng

Kunpeng 920および920B
- 初期世代（Hi1610〜Kunpeng 916）：ARM Cortex A57→A72、TSMC 16nm
- Kunpeng 920（2019）：64コアのカスタムTaiShan V110、2つのTSMC 7nmコンピュートダイ、CoWoS-Sパッケージング（CPUとして初のCoWoS-S適用）
  - 8チャネルDDR4、40 PCIe4レーン、デュアル100GbE統合
  - 米国の制裁でTSMCからの供給が遮断され、次世代Kunpeng 930は未発売
- Kunpeng 920B（2024）：TaiShan V120コアにSMTをサポート、ダイ当たり10個の4コアクラスタ（合計80コア/160スレッド）
  - 8チャネルDDR5、I/Oダイを分離配置、SMIC N+2プロセスで再設計（5年の空白）
Kunpeng 950（2026）
- 192コアの新型LinxiCore（SMT対応）、96コアの小型版も生産
- TaiShan 950 SuperPoDラック構成：16台のデュアルソケットサーバー、最大48TB DDR5（12チャネルと推定）
- Kunpeng 920B比でOLTPデータベース性能が2.9倍向上（GaussDB Multi-Writeベース）
- Oracle Exadataデータベースサーバーおよび中国の金融業界で採用予定
- SMIC N+3プロセスで生産と推定
Kunpeng 960（2028ロードマップ）
- 高性能版：96コア/192スレッド、AIヘッドノード・データベース向け、コア当たり性能が50％以上向上
- 高密度版：仮想化・クラウド向け256コア以上
- 中国のハイパースケーラーCPU市場で相当なシェア確保が見込まれる

CPUの帰還：2026年のデータセンターCPU市場展望

データセンターCPUの役割変化と進化

PC時代からドットコム時代まで

仮想化・クラウドコンピューティング・ハイパースケーラー時代

AI GPUとCPUの統合時代

強化学習・エージェント時代

マルチコアCPUインターコネクトの歴史

初期のクロスバー設計と限界

Intelリングバスアーキテクチャ

Intelメッシュアーキテクチャ

EMIBによる分散メッシュ

Xeon 6の異種分散設計

Clearwater Forestの限界

AMD Zenインターコネクトアーキテクチャ

EPYC Naples（2017）

EPYC Rome（2019）以降の世代進化

Intel Diamond Rapidsアーキテクチャ

SMT削除の問題

AMD Veniceアーキテクチャ

Veniceの性能と新命令

NVIDIA GraceとVera

Grace CPU

Vera CPU（2026年）

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A、N4A

Ampere ComputingとSoftBankによる買収

ARM Phoenix

Huawei Kunpeng

Kunpeng 920および920B

Kunpeng 950（2026）

Kunpeng 960（2028ロードマップ）

関連記事

まだコメントはありません。