5 ポイント 投稿者 GN⁺ 2026-02-10 | まだコメントはありません。 | WhatsAppで共有
  • 強化学習とエージェント型AI推論への需要が爆発的に拡大し、データセンターにおけるCPUの役割が再び急浮上、GPU中心だった投資の流れに変化が生じている
  • Intelは2025年末に予想外のサーバーCPU需要急増を経験し、2026年にファウンドリ設備投資を拡大、PC向けウェハーをサーバー向けに転換している
  • AMD VeniceはTSMCのN2プロセスベースの256コアZen6c CCDとメッシュネットワークを導入し、性能・電力効率の両面でIntelとの差がさらに広がる見通し
  • NVIDIA、AWS、Microsoft、Google、ARMなど、ハイパースケーラー独自ARM CPU陣営が本格的に拡大し、x86の独占構造は急速に崩れつつある
  • Huawei Kunpeng 950まで含め、2026年はすべてのベンダーが新世代CPUを同時投入する前例のない競争の年

データセンターCPUの役割変化と進化

  • PC時代からドットコム時代まで

    • 1990年代、PCプロセッサの性能向上によってメインフレームやワークステーションを代替する需要が生まれ、IntelはPentium Pro(1995)とXeonブランド(1998)でサーバー市場に参入
    • 2000年代のインターネット時代には、Web 2.0、電子商取引、スマートフォンの普及により、データセンターCPUは数十億ドル規模の市場へと成長
    • GHz競争の終息後、マルチコアCPUやメモリコントローラ統合(AMD)、PCIe直接接続などの設計革新が進行
    • SMT(Simultaneous Multi-Threading)がIntelとAMDの両社で導入され、並列処理性能が向上
  • 仮想化・クラウドコンピューティング・ハイパースケーラー時代

    • 2000年代後半、AWSなどのパブリッククラウドの登場により、CapExからOpExモデルへ移行し、サーバーレスコンピューティング(AWS Lambdaなど)へと発展
    • CPUハードウェア仮想化がクラウドの中核基盤となり、ハイパーバイザー(VMware ESXiなど)が単一CPU上で多数の独立したVMを運用
    • 2018年のSpectreとMeltdown脆弱性によってSMT無効化の必要性が浮上し、最大30%の性能損失が発生
      • 分岐予測機能を利用した攻撃により、クラウドセキュリティの脅威が現実化
  • AI GPUとCPUの統合時代

    • ChatGPTのリリース(2022年11月)以前の5年間で、Intelは1億個以上のXeon Scalable CPUを出荷
    • AIモデルの学習・推論は、GPUの大規模ベクトルユニットとTensor Core上で100〜1000倍効率的に実行
    • CPUはGPUに比べて行列演算性能が極めて低く、支援役へと格下げされ、電力もGPUに優先配分
    • CPUの活用は2つに分化:
      • ヘッドノード: GPUにデータを供給・管理し、高いコア性能・大容量キャッシュ・高帯域幅メモリが必要(NVIDIA Grace、Venice+MI455X、Graviton5+Trainium3など)
      • クラウドネイティブなソケット統合: 電力効率最大化のため、旧世代サーバーを最新CPUで10:1以上の比率で置き換え、COVID期に購入した数百万台のIntel Cascade Lakeサーバーが退役中
  • 強化学習・エージェント時代

    • MicrosoftのOpenAI向け「Fairwater」データセンターでは、48MWのCPU・ストレージ棟が295MWのGPUクラスターを支え、数万個のCPUがペタバイト級データ処理に投入
    • **強化学習(RL)**環境では、モデルが生成した行動を実行して報酬を計算するため、コードのコンパイル、検証、解釈、ツール利用などに大量のCPUが必要
      • GPU性能の向上速度がCPUを大きく上回っており、今後Rubin世代ではCPU対GPUの電力比率が1:6以上に拡大する可能性
    • RAGモデルとエージェント型モデルがAPI呼び出し、インターネット検索、データベースクエリを大規模に実行し、汎用CPU需要が急増
    • AWSとAzureは独自のGraviton・Cobalt CPUとx86サーバーを大量配備中
    • Frontier AI研究所はRL学習向けCPU不足に直面し、クラウド事業者と汎用x86サーバーの確保を巡って直接競争
    • Intelは予想外の在庫枯渇を受けてXeonの値上げを検討し、追加の生産ツールを確保中
    • AMDは供給能力を拡大しており、2026年のサーバーCPU TAMが**「力強い二桁成長」**になると見込んでいる

マルチコアCPUインターコネクトの歴史

  • 初期のクロスバー設計と限界

    • 初期のデュアルコア(Intel Pentium D、AMD Athlon 64 X2、2005年)では FSB(Front Side Bus)またはオンダイNoCベースの接続
    • クロスバー方式はコア数の増加に伴って接続数が急増し(2コア=1、4コア=6、6コア=15、8コア=28)、4コアが実質的な限界
    • AMD Istanbul(2009)は6-wayクロスバー、Magny-Cours(2010)はデュアルダイ12コア、Interlagosは16コアへ拡張
  • Intelリングバスアーキテクチャ

    • Intel Nehalem-EX(2010)でリングバスを導入し、8コアを単一ダイに統合、IMCとQPIリンクを含む
    • 二重の逆回転リングによりレイテンシと混雑を緩和、コア間アクセスのレイテンシは 非均一(NUMA)
    • Ivy Bridge-EX: 3列5行配置で3つの「仮想リング」により15コアを達成
    • Haswell/Broadwell: デュアル独立リングバスにより18〜24コア、ただしリング間の バッファードスイッチ 通過時に100ns以上の遅延が発生
      • Cluster on Die」構成で2つのNUMAノードに分離可能
  • Intelメッシュアーキテクチャ

    • 2016年の Xeon Phi "Knights Landing" でメッシュインターコネクトを導入し、2017年のSkylake-X Xeon Scalable(28コア)へ拡大
    • 2D格子配列でコア・L3キャッシュスライス・PCIe IO・IMC・アクセラレータを各メッシュストップに配置
    • Sub-NUMA Clustering(SNC) モードでメッシュを4分割し、平均レイテンシを低減
    • Skylake-X: 6x6メッシュ、メッシュクロック2.4GHzでBroadwellデュアルリングに近い平均レイテンシを達成
    • Ice Lake: 10nm移行により8x7メッシュで40コアまで拡張(レチクル限界)
  • EMIBによる分散メッシュ

    • Sapphire Rapids: Intel 7ノードでは単一モノリシックダイで34コアにとどまり、AMXエンジン の追加でコア面積が増加
      • EMIBアドバンストパッケージング で4つのダイを接続し、8x12メッシュ構成で60コアを達成(約1600mm²のシリコン)
      • コア間の平均レイテンシが47ns(Skylake)から 59ns に悪化
      • 各コアのプライベート L2キャッシュを2MBに増加(総L2 > L3: 120MB vs 112.5MB)
      • E5ステッピングまで進みながら数年にわたり遅延し、当初は2021年予定だったが2023年初頭に発売
    • Emerald Rapids(2023年末): ダイ数を2つに減らし、コア数66個(最大64個有効)、L3キャッシュを 320MBへほぼ3倍に増加
  • Xeon 6の異種分散設計

    • 2024年のXeon 6プラットフォームでは I/Oとコンピュートを異種分離: I/OダイはIntel 7、コンピュートダイは Intel 3
    • PコアのGranite RapidsとEコアの Sierra Forest 構成を混在可能
    • Granite Rapids-AP Xeon 6900P: 3つのコンピュートダイで 10x19メッシュ、132コア(最大128コア有効)
    • Sierra Forest: Eコア4つをクラスター化して8x6メッシュで 144コア、ただしハイパースケーラーはすでにAMD・独自ARM CPUを採用しており導入は限定的
      • デュアルダイ288コアのSierra Forest-AP(Xeon 6900E)は少量生産にとどまる
  • Clearwater Forestの限界

    • Xeon 6+ Clearwater Forest-AP: Intelの Foveros Direct ハイブリッドボンディングにより、18AコアダイをIntel 3ベースダイ上に積層し、288コアを達成
    • 12個の24コアコンピュートダイで構成された複雑な設計
    • Foveros Direct統合の問題により 2025年下期から2026年上期へ延期
    • 4コアクラスター当たり、ベースダイのL3・メッシュアクセス帯域幅は 35GB/sにすぎない
    • 2年の間隔があるにもかかわらず、Sierra Forest比で同一コア数基準 17%の性能向上にとどまる
    • Intelは2025年Q4決算発表でClearwater Forestにほとんど言及せず、高ボリューム生産よりも Foveros Directの歩留まり学習用ビークル として活用する可能性

AMD Zenインターコネクトアーキテクチャ

  • EPYC Naples(2017)

    • AMDのデータセンター復帰作として、4つの「Zeppelin」ダイをMCMで構成し32コアを達成
    • 各ダイに2つのCCX(4コア+8MB L3、クロスバー接続)、ダイ間は Infinity Fabric on Package(IFOP) リンク
    • 統合L3キャッシュの不在と多数のNUMAドメイン(Intra-CCX、Inter-CCX、Die-to-die、Inter-Socket)により レイテンシのばらつきが大きい
    • Intelは「4つのデスクトップダイを接着したもの」と揶揄したが、小規模チームによる資源効率の高い設計だった
  • EPYC Rome(2019)以降の世代進化

    • Rome: 中央I/Oダイの周囲に8つの 8コアCCD を配置、CCDはTSMC N7、I/OダイはGlobalFoundries 12nm
      • すべてのCCX間通信がI/Oダイを経由する GMIリンク 方式で、機能的には16個の4コアNUMAノード
    • Milan(2021): CCXサイズを8コアに拡大しつつリングバスを採用、RomeのI/Oダイを再利用
    • Genoa(2022): 12個のCCD、Turin(2024): 最大16個のCCDで128コア(EPYC 9755)、DDR5・PCIe 5にアップグレード
    • チップレット設計の中核的利点: 単一CCDのテープアウトで 全コア数ラインアップを構成 でき、小型ダイにより歩留まり・投入速度で有利
    • コンパクトなZen 4c/Zen 5cコア派生により、Bergamo(Zen 4c)、Turin-Dense(192コア)も同一プラットフォームで提供

Intel Diamond Rapidsアーキテクチャ

  • 4つの CBB(Core Building Block)ダイが2つの IMH(I/O and Memory Hub)ダイを囲む構造で、AMD設計と外見上は類似
  • 各CBB内の32個のデュアルコアモジュール(DCM)はIntel 18A-P で製造され、Intel 3-PTベースダイにハイブリッドボンディング
    • 2コアが共通L2キャッシュを共有し、2008年のDunnington世代を想起させる設計
  • 総計256コアだが、メインストリームSKUでは 最大192コア の有効化が見込まれる
  • IMHダイ: 16チャネルDDR5、PCIe 6(CXL 3対応)、Intelデータパスアクセラレータ(QAT、DLB、IAA、DSA)
  • EMIBの代わりに パッケージ基板上の長距離配線 でダイ間接続を行い、各CBBが両側のIMHへ直接アクセス可能
    • ただしクロスCBB レイテンシはかなり悪化 すると予想される
  • SMT削除の問題

    • Spectre/Meltdown以降、IntelはPコアで SMTを削除 し、2024年のクライアント向けLion Coveから適用
    • データセンターでは最大スループットが重要なため、Diamond Rapidsにとって 深刻な弱点
    • 現行Granite Rapidsの128コア/256スレッドに対し、192コア/192スレッドのDiamond Rapidsは約 40%の性能向上にとどまる見通し
    • メインストリーム8チャネルの Diamond Rapids-SPプラットフォームを全面中止、少なくとも2028年まで当該市場に次世代製品が不在
      • AIツール利用・コンテキストストレージに必要な汎用コンピューティングCPU市場を取り逃す結果

AMD Veniceアーキテクチャ

  • AMDが初めて先進パッケージング技術を採用し、高速短距離リンクでCCDとI/Oダイを接続
  • CCDリンク用の追加ショアラインにより中央I/Oハブが2つのダイに分離され、チップ両側間で追加のNUMAドメインが発生
  • 16メモリチャネル(Genoaの12チャネルから増加)、MRDIMM-12800多重化メモリにより1.64TB/sの帯域幅(Turin比2.67倍)
  • CCD内部にメッシュネットワークを導入:32個のZen6cコアを4x8格子に配置、TSMC N2プロセス
  • 8個のCCDで合計256コア、Turin-Denseの192コア比で1/3増加
  • Zen6cにコア当たり4MB L3キャッシュを全量割り当て(従来のZen5cは半分)、CCD当たり128MBのキャッシュ領域
  • AIヘッドノード向けの低コア・高クロック「-F」SKU:デスクトップ/モバイル向け12コアZen6 CCDを活用し、最大96コア
  • I/Oダイ横のDDR5インターフェース付近に8個の小型IPD(Integrated Passive Device)を配置し、電力供給を安定化
  • Veniceの性能と新命令

    • 256コア最上位モデルは、192コアのTurin比でSPECrate®2017_int_baseにおいてワット当たり性能が1.7倍以上
    • Zen 6マイクロアーキテクチャで高いIPC(Instructions per Clock)向上
    • 新しいAIデータ型命令:AVX512_FP16、AVX_VVNI_INT8、AVX512_BMM(ビット行列乗算)
      • BMM:FPUレジスタに16x16バイナリ行列を格納し、OR・XOR演算でBMM累積を実行
      • Verilogシミュレーションなどには有効だが、LLMでは精度不足のため採用は限定的との見通し
    • AMDの96コアTurinがIntelの128コアGranite Rapidsと同等の状況で、VeniceとDiamond Rapidsの間では性能格差がさらに拡大する見込み
    • Intelが8チャネルプロセッサを取りやめた一方、AMDは新しい8チャネルVenice SP8プラットフォームを導入し、EPYC 8004 Sienaの後継として最大128コアのZen 6cを提供
      • Intelの伝統的な強みであるエンタープライズ市場でAMDのシェア拡大が予想される

NVIDIA GraceとVera

  • Grace CPU

    • GPUヘッドノードと拡張GPUメモリ向けの設計で、NVLink-C2C(双方向900GB/s)によりGPUがCPUメモリへフル帯域でアクセス
    • モバイル向けのLPDDR5Xメモリを採用し、512ビットメモリバスで500GB/sの帯域幅、CPU当たり最大480GB
    • ARM Neoverse V2コア72個(76個中アクティブ)、6x7メッシュ、117MB L3キャッシュ
    • メッシュネットワークの双方向分割帯域幅は3.2TB/sで、データフローに特化
    • マイクロアーキテクチャ上のボトルネック:Branch Target Bufferは24リージョン超で性能が急落し、32リージョン超では64MBバッファ全体のフラッシュが発生
      • 最適化されていないHPCコードでは50%の性能低下が起き、GB200/GB300のAIワークロードにも影響
  • Vera CPU(2026年)

    • Rubinプラットフォーム向けにC2C帯域幅を1.8TB/sへ倍増
    • 8個の128ビットSOCAMMモジュールにより1.5TBのメモリ、1.2TB/sの帯域幅
    • 7x13メッシュで91コア(88個アクティブ)、L3キャッシュは162MB
    • CoWoS-Rパッケージング:3nmのレチクルサイズ計算ダイ1個 + LPDDR5メモリダイ4個 + PCIe6/CXL3 IOダイ1個(合計6ダイ)
    • Neoverseコアの性能ボトルネックから脱し、独自設計のOlympusコアへ回帰
      • 88コア/176スレッド(SMT対応)、ARMv9.2、FPUは6x 128bポート(Neoverse V2の4個から拡張)
      • ARM SVE2 FP8演算に対応し、コア当たり2MB L2キャッシュ(Grace比2倍)
      • 全体として2倍の性能向上

AWS Graviton5

  • AWSは独自CPUをクラウドへ初めて成功裏に展開したハイパースケーラーで、Annapurna Labsの買収とARM Neoverse CSSを活用
  • Graviton2:COVIDブーム期の大幅値引きでARM移行を促進、64個のNeoverse N1コア
  • Graviton3:Neoverse V1によりコア当たり浮動小数点性能が2倍、EMIBチップレット設計、DDR5・PCIe5をAMD・Intelより1年早く導入
  • Graviton4:Neoverse V2コア96個、12チャネルメモリ、PCIe5 96レーン、デュアルソケット対応
  • Graviton5(2025年12月プレビュー):192個のNeoverse V3コア、TSMC 3nm、1720億トランジスタ
    • L3キャッシュは192MB(Graviton4の36MBから大幅増)、12チャネルDDR5-8800
    • PCIe6へ更新する一方、レーン数は96→64本に減少(未使用レーンのコスト最適化)
    • 8x12メッシュで、2コアがメッシュストップを共有し、複数の計算ダイ分割と新しいパッケージング戦略を採用
  • AWSは社内で数千個のGraviton CPUをCI/CD・EDAに利用し、次世代Graviton・Trainium・Nitroの設計に活用(自社ドッグフーディング)
  • Trainium3アクセラレータはGraviton CPUをヘッドノードとして使用(1 CPU : 4 XPU)

Microsoft Cobalt 200

  • Cobalt 100(2023年、128 Neoverse N2コア)の後継として2025年末に投入
  • 132個のNeoverse V3コア、コア当たり3MB L2キャッシュ、TSMC 3nm計算ダイ2個
  • ダイ当たり8x8メッシュ、72コア実装/66コア有効、192MB L3キャッシュ、6チャネルDDR5、64レーンPCIe6
  • Cobalt 100比で50%の性能向上
  • Azureの汎用CPUコンピューティングサービス専用で、AIヘッドノードには未使用(Microsoft Maia 200はIntel Granite Rapidsを採用)

Google Axion C4A、N4A

  • 2024年発表・2025年GAで、GoogleがGCPカスタムシリコンCPU市場へ参入
  • Axion C4A:最大72個のNeoverse V2コア、8チャネルDDR5、PCIe5、モノリシック5nmダイ(81コア実装、9x9メッシュ)
    • 2025年末にプレビューされた96コアベアメタルインスタンス向けの新しい3nmダイ設計と推定
  • Axion N4A:コスト効率の高いスケールアウト向け、64個のNeoverse N3コア、TSMC 3nmのフルカスタム設計
  • Googleは社内インフラ(Gmail、YouTube、Google Playなど)をARMへ移行中で、将来はTPUクラスターのヘッドノードにもAxionを配備する計画

Ampere ComputingとSoftBankによる買収

  • マーチャントARMシリコンの先駆者としてOracleと提携し、Altra(80コア)とAltra Max(128コア)でx86独占に挑戦
    • Neoverse N1コア、独自メッシュインターコネクト(4コアクラスタ)、8チャネルDDR4、128 PCIe4レーン、TSMC 7nm単一ダイ
  • AmpereOne:5nmプロセス、192コア、I/Oチップレット分離(DDR5・PCIe)、インターポーザ不要のMCM設計
    • カスタムARMコア(コア密度最適化) + 2MB L2キャッシュ(ノイジーネイバー問題を緩和)
    • チップレット再利用により、12チャネルAmpereOne-M、3nm 256コアAmpereOne-MXなどの派生計画
  • 2025年にSoftBankが65億ドルで買収、Stargateベンチャー向けのCPU設計人材確保が目的
  • Ampere失敗の原因:
    • Altra世代はARMネイティブソフトウェアが未成熟な時期に投入が早すぎた
    • AmpereOneは度重なる遅延で2024年下半期になってようやく利用可能となり、その時点ではハイパースケーラーのARM CPUが本格化し、AMDが3〜4倍高いコア当たり性能で192コアを提供
    • OracleのAmpere CPU購入額:FY2023 4800万ドル → FY2024 300万ドル → FY2025 370万ドルへ急減

ARM Phoenix

  • ARMは2026年にフルデータセンターCPUの設計・販売事業へ参入し、既存のNeoverse CSSライセンス顧客と直接競合
  • 現在までにデータセンターCPU・DPUへ10億個以上のNeoverseコアを展開、12社向けに21件のCSSライセンス
  • データセンターのロイヤリティ収益は前年比で2倍以上成長、今後数年以内にCSSがロイヤリティ収益の50%以上を占める見通し
  • Phoenix:128基のNeoverse V3コア、ARM CMNメッシュ、TSMC 3nmのハーフレチクル2ダイ
    • 12チャネルDDR5(8400MT/s)、96レーンのPCIe Gen 6、TDPは250〜350Wに設定可能
    • 最初の顧客はMetaで、OpenAI(Stargate/SoftBankベンチャー)とCloudflareも顧客候補
    • PCIe6ベースのAccelerator Enablement Kitにより、XPUとコヒーレント共有メモリ接続が可能

Huawei Kunpeng

  • Kunpeng 920および920B

    • 初期世代(Hi1610〜Kunpeng 916):ARM Cortex A57→A72、TSMC 16nm
    • Kunpeng 920(2019):64コアのカスタムTaiShan V110、2つのTSMC 7nmコンピュートダイ、CoWoS-Sパッケージング(CPUとして初のCoWoS-S適用)
      • 8チャネルDDR4、40 PCIe4レーン、デュアル100GbE統合
      • 米国の制裁でTSMCからの供給が遮断され、次世代Kunpeng 930は未発売
    • Kunpeng 920B(2024):TaiShan V120コアにSMTをサポート、ダイ当たり10個の4コアクラスタ(合計80コア/160スレッド)
      • 8チャネルDDR5、I/Oダイを分離配置、SMIC N+2プロセスで再設計(5年の空白)
  • Kunpeng 950(2026)

    • 192コアの新型LinxiCore(SMT対応)、96コアの小型版も生産
    • TaiShan 950 SuperPoDラック構成:16台のデュアルソケットサーバー、最大48TB DDR5(12チャネルと推定)
    • Kunpeng 920B比でOLTPデータベース性能が2.9倍向上(GaussDB Multi-Writeベース)
    • Oracle Exadataデータベースサーバーおよび中国の金融業界で採用予定
    • SMIC N+3プロセスで生産と推定
  • Kunpeng 960(2028ロードマップ)

    • 高性能版:96コア/192スレッド、AIヘッドノード・データベース向け、コア当たり性能が50%以上向上
    • 高密度版:仮想化・クラウド向け256コア以上
    • 中国のハイパースケーラーCPU市場で相当なシェア確保が見込まれる

まだコメントはありません。

まだコメントはありません。