Nvidia、Windows PC向けに怪物級のCPUシステムを提案
(twitter.com/lemire)- NVIDIAのWindows PC向け高性能システムは、CPU・GPUが128GBの共有メモリを共同利用し、最大6,144基のCUDAコアを備えるチップ構成
- CPUは高性能コア10基と高効率コア10基を備え、高性能コアはCortex-X925ベースで、SVE2は最近のAMDチップよりは劣るがApple Siliconよりは優れている水準
- 中核的な差別化要因は、CPUとGPUのメモリを分けないユニファイドメモリであり、専用GPUメモリより遅い一方で、ローカルAIモデル実行に必要な帯域幅とコスト条件を狙った構造
- ローカルAIモデル実行の需要はまだニッチなアプリケーションだという見方と、128GB共有メモリは学生規模の実験ではピークGPU TFLOPsより重要になり得るという見方もある
- 比較対象にはAMD Strix Halo、Intel Xe3P AI GPU、最近のAMDプロセッサのAVX-512があり、RAMがはんだ付けされていて後から交換しづらいという制約もある
システム仕様とメモリ構造
- Nvidiaが提案したWindows PC向けCPUシステムは、128GBの共有メモリと最大6,144基の最新CUDAコアを備える構成
- CPUは高性能コア10基と高効率コア10基で構成され、高性能コアはCortex-X925ベース
- Cortex-X925のSVE2は、仕様上は最近のAMDチップより劣るがApple Siliconよりは優れているという比較
- 最近のAMDプロセッサはすべてAVX-512をサポートしており、AVX-512はCortex-X925のSVE2よりはるかに優れていて、より多くのデータを処理でき、より汎用的だという比較
- Intelはこれまで消費者向けシステムでAVX-512の提供に慎重な姿勢
- 128GBのユニファイドメモリは、CPU用とGPU用の個別メモリの代わりに単一のプールを共有する方式で、Appleが数年前に選んだ路線と同じ構造
- ユニファイドメモリは次第に人気を集めており、専用GPUメモリほど高速ではないが、ローカルAIモデル実行に十分な帯域幅を提供できるだけの低コスト性が利点
- ユニファイドRAMではCPUとGPUの間でデータを送る必要がなく、すべてが単一のメモリプールにあるため、ゼロコピー演算のように感じられるという見方
- IntelとAMDがどう対抗するかが注目ポイント
関連するさまざまな意見
- ローカルAIモデル実行の需要がどれほどあるかは不確実で、まだニッチなアプリケーションである
- このシステムはビデオゲーム向けとしては良いマシンになり得るという見方と、ゲーム向けではなく大規模モデル向け設計なので予想ほどゲームに向かないだろうという反論もある
- 学生規模の実験では、128GBの共有メモリはピークGPU TFLOPsより重要になる可能性があり、どのモデル・ワークロードをローカルで試せるかを変え得るという主張
- RAMは後から交換できず、すべてはんだ付けされているというトレードオフ
- メモリ容量の要求については、128GBでは不足で256GBまたは512GBを望むという意見、AI作業向けの「beast」には最低512GBが必要だという意見、1TBのユニファイドメモリオプションを望む声もある
- 128GBという選択理由についての筆者の短い回答は「コスト」
- OSについては、「regular Windows」は動かさないという主張とともにOSへの不満が示され、Linuxのインストールが提案されている
- AMD Strix Haloは、128GBのユニファイドメモリと大きなiGPUを備える類似製品であり、デスクトップZen 5のAVX-512を備えた比較対象
- AMD Strix Haloを数か月にわたりローカルLLMホームラボで使った経験では、プロシューマー級のLLM実行は可能だが、実際のボトルネックはメモリ帯域幅だという
- 新しいNvidiaチップには300GB/s以上のメモリ帯域幅が必要だという要求
- RTX5090は、すでにデスクトップを持っているなら、より高速な小型モデル向けとしてより安価になり得る一方、このボード系統はより大きなローカルモデルに向いている
- ローカルAI実行の利点は、機密データや顧客データを責任の所在が不明確な第三者に送らずに済むこと、SaaSサブスクリプションやトークン料金を避けられること、PCの使用行動をローカルモデルが学習して作業を実行することにつながる点
- ローカルモデルはユーザーに見えない機能として動作し、より高い知能やより多くのコンテキストが必要な作業はリモートへオフロードされ得る
- 重要なのはローカルモデル自体よりも、統合AIアプリケーションを支えるソフトウェアプラットフォームであり、デスクトップを関連性のある存在として維持する方法だという点
- Google Chromeの実行がローカルAIのユースケースになり得る例として、Chromeのbuilt-in AIドキュメントが挙げられている
- Intel Xe3P AI GPUの比較項目は、160GB LPDDR5X、最大480GBの可能性、640ビットのメモリインターフェース、PCIe x16構成: https://tomshardware.com/pc-components/gpus/…
1件のコメント
Hacker Newsの意見
統合メモリプールは、特にデータセンター外のシステムアーキテクチャにおいて、今後も「ゲームチェンジャー」であり続けそうだ
最新ゲームやコンシューマー向けの処理でも、実際にはGPUのPCIe帯域幅やGDDRメモリ帯域幅を使い切っておらず、ローカルAIでも平均的な消費者にとっては、より高速なメモリの恩恵はそれほど大きくない
統合メモリは必要に応じて活用度を最適化でき、GDDR/DDRの配置を別々に考えなくてよいため、小型・携帯機器で全体のメモリコストを下げられる
欠点はセキュリティで、GPU側またはCPU側のメモリのサイドチャネル攻撃がもう一方にも及ぶ可能性があるため、今後はメモリ安全性を考慮した設計が重要になりそうで、Rust支持者には好ましい流れかもしれない
ゲームはハードウェアを飽和させることではなく、フレーム締め切り時間内に一貫した出力を出すことが重要だ
5090をゲームで飽和させようとしても対象市場は小さく、ユーザーの実機スペックでもテスト機材と同じように動作してフレームレートを維持できなければならない
現行世代のコンソールと現行世代のPCの最大の違いの1つが統合メモリだ
作業の99%では、GPUメモリよりシステムメモリのほうが少なくとも1桁以上多く必要であり、ほとんどのシステムでは動画視聴やブラウジングなどに必要な水準を超えるGPUメモリはほとんど要求されない
新しいユースケースが生まれたからといって、その構造が完全に逆転するわけではなく、今128GBが必要でローカルAIにも128GBが必要なら、同じことを続けるには256GB必要になる
むしろGPUにそこまで高価なメモリを使うべきではないという主張に近く、推論専用なら正しいかもしれない
統合メモリアーキテクチャでは多くの性能を犠牲にすることになり、状況によっては理にかなうが万能の解決策ではない
ローカルでAIモデルを動かす人がどれほどいるのかは分からず、まだニッチに見えるが、最近のGemmaのリリースを見ると、コスト面だけでも一部のモデルをローカルで動かす可能性は高まっている
企業セキュリティまで考えるとなおさらだが、ただ、こうしたアーキテクチャがゲーム用途でなぜよいのかはよく分からず、元の文章全体には疑問を感じる
付け加えると、「Stanford/Elsevier 2025 世界の科学者上位2%、GitHub上位1000開発者」といった文句をあちこちに付けるのは、むしろ逆効果に感じられる
複数のM5 MacBookに配布してみたが、多くの作業で実際に有用だった
Opusや現行世代のSonnet級モデルの代わりにはならないが、サイズ比では驚くほど優秀で、Sonnet 4の時期と同程度か少し前の水準に見える
ツール呼び出し、コーディング、エージェント作業ではGemmaモデルよりはるかに安定しており、特にMTP使用時はさらに速い
他の計算処理と同じように規模の経済がなぜここには適用されないのか分からない
著者の仕事を貶したいわけではないが、この記事は実際に深く見たのではなく、スペック表だけを見て書いたように感じる
5070モバイルとコア数は同じだが、共有ピーク帯域幅と共有ピークTDPがそれぞれ2/3程度なので、GPU単体性能は専用ユニットの半分程度である可能性が高い
AppleにはSVE2はないが、非公開のAMXとSMEがあり、なぜSVE2がSMEより速いと見なすのか分からない
単一コアタイプについては語っているが、全体構成には触れておらず、DGX SparkがAppleチップとどう比較されるかはすでに1年前から知られている
CPUはおおむねM3 Pro級、GPU計算は帯域幅を除けばM4 ProとM4 Maxの間で、本当の利点はCUDAが動くという一点だけだ
発売時点ではAppleより2〜3世代、AMDより1世代遅れている可能性が高く、DGX Sparkのもう1つの強みだった相互接続用NICもここでは省かれている
SparkではM5 Maxよりはるかに速く、同じモデル・同じ量子化・同じクエリ・できるだけ同じvllm設定で比べると、大きなプロンプトでキャッシュされにくい作業では、MBPがプリフィルを終える前にSpark 1台が応答を完了することが多い
その点ではAppleが有利だが、SparkのGPU計算性能はM5 Maxの17 FP32 TFLOPSよりはるかに高く、およそ2倍水準だ
デスクトップ5070と同じくCUDAコア6144基を備えており、低速メモリと低いTDPのために性能が抑えられた形で、5070の31 FP32 TFLOPSに対して29.7程度になる
全体としてSparkは悪くないが、すごいというほどではない
業界がずっと前から知っていたチップを今になって知ったかのようで、競合製品もほとんど知らないまま「BEAST」「GAME CHANGER」と持ち上げている感じだ
DGX Sparkもゲームチェンジャーだったのかといえば概して大きな失望で、高価なNvidiaノートPC1台で状況が一変することはなさそうだ
Qualcomm Snapdragon X2 Elite Extreme は、シングルコアCPU性能で Nvidia チップを大きく上回り、Intel・AMD の最上位製品にも勝っている
統合メモリもあり、CPU性能と電力効率の両面で Apple M シリーズと同じリーグにいる唯一のCPUだ
年末ではなく今すぐノートPCとして買えるのに、人々は Qualcomm を過小評価している
Linux をサポートできないならほとんど意味がなく、この分野で重要なプラットフォームは Linux と Darwin の2つだ
Qualcomm は、GPU分野で長年 AMD がそうだったように発表は多く、Webページを読んだネットのファンも多いが、実際に動かそうとすると悪夢だ
Snapdragon X Elite は Linux で動かないので、プラットフォームとして役に立たず、熱心なユーザーたちが M1 をより良く動くようにしたほどで、Qualcomm の代わりに古い Mac を使うことになる
比較対象は Mediatek Dimensity 9500 に入っている X930 や C1、つまり Snapdragon 8 Elite Gen 5 / X2 Elite の側であるべきだ
Qualcomm はまだ性能優位を保っているが、その差は徐々に縮まっており、さらに重要なのは Nvidia のほうがエコシステムをはるかにうまく構築している点だ
Nvidia は PCゲーミングGPUの上に築かれた流通チャネルとパートナーがはるかに強く、ゲーム開発者との関係も業界で unmatched だ
Qualcomm は PC とサーバーCPUの両方で、いまだ実行力を示せていない
過去のひどい経験が多すぎて人々がためらうのも当然で、今はより努力しているようだが、PC市場での評判を回復するには時間がかかる
実機のプレスリリースはこちら
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
Microsoft と特に NVIDIA が、本質的に 従量課金クラウドAIモデル と衝突するデバイスを出している点を指摘する人が少ないのは意外だった
Copilot のより良いオフライン BYOK、無制限の AI 未来といった他の発表やシグナルを見ると、両社はクラウド専用AIが持続可能でもなく、本質的に自分たちに有利でもないことを理解しているようだ
それでも、このような製品で OpenAI を弱体化させようとする姿勢は目立つ
Microsoft はローカルAIを強く推し進めている
価格が本当に上がらない限り、ローカル LLM が広く採用されるかはよく分からない
Sonnet や Kimi のような、より安いホスティング型の小型モデルを使うほうが理にかなっているし、こうしたデバイスでは Kimi 級のモデルは動かせないだろうが、そのクラスこそおもちゃではないエージェント作業の最低ラインだ
月額 $20 のサブスクを避けるために $5,000 を使うのは、ニッチなセキュリティ上の理由でもない限りあまり筋が通らない
Dungeon Crawler Carl を見たことがある?
こうしたノートPCが提供するものを、大半の人はきちんと理解していないように思う
ローカルAIの前に、まず ハイブリッドAI を使うようになる可能性が高い
大きなモデルをローカルで動かすのは非現実的だが、エージェントのワークフローで一部はクラウド、より小さな作業はローカルで動かすと考えれば、素晴らしい組み合わせになる
基本的な作業には Opus/Code/DeepSeek/Kimi のようなモデルは不要で、Gemma4:12b/Qwen-27b のようなモデルなら、はるかに低い遅延でローカル処理できる
リモートの大規模モデルとローカルのドメイン特化モデル5つを組み合わせられるノートPCなら、今すぐ使いたい
OpenCode が小型モデルでどの作業をローカル実行するか判断し、その作業向けのローカルモデルがあるか、あるいはクラウドモデルを使うかを決める姿は想像できる
心配なのは、このハードウェアが 高速なローカルモデル切り替え に耐えられるほど強力かどうかで、おそらく無理だろうと思うが、外れていてほしい
フロンティアモデルも今では 200,000 トークンだけでより良いベンチマークを出しており、蒸留にはまだ大きな伸びしろがある
これのどこが「怪物」なのかよく分からない
メモリ帯域幅 300GB/s は AMD Strix Halo の 256GB/s より少し高いだけで、同じ 128GB RAM 構成の M5 Max 128GB の 614GB/s と比べると半分にも満たない
興味を持つ人の大半は AI 愛好家だろうからメモリ帯域幅を重視するはずで、そのうえ Windows だ
M5 では最初のトークンまでに半分近い時間がかかるような 256k トークンのワークフローも、現実的に回せるかもしれない
AMD は x86 マシンなので何でも動かせるし、Apple は MacOS スタック全体を維持しているが、Nvidia は Jetson の世代ごとに Ubuntu の1リリースを辛うじて合わせる程度で、恥ずかしいレベルだ
ずっと騒いでいるエージェントを、実際に OSサポート の作業へ投入してほしい
すでに買えて 128GB 統合メモリ をサポートする AMD Ryzen AI Max のようなものと何が違うのか、本当に気になる
2026年になってもまだ「Windows PC」にこだわる人が誰なのか分からない
単なるパーソナルコンピュータで、普通は複数のOSを問題なく動かせる
Windows PCという表現は、Microsoftから金をもらっているか、Word文書に画像を貼って送るようなノリで技術を語る人のように聞こえる
OSに縛られない機器の面白さを、無理やり出来の悪いOSに結びつける必要はない
おそらく他の市場を全部合わせたより多くのPCを買う可能性が高い
個人用途でも、Windowsと別のOSをデュアルブートする人はごく少数だろう
「Windows PC」は「Apple製」と「それ以外」を区別するかなり合理的な表現で、Apple製ではなく、しかもWindowsが標準でないPC市場は本当に小さい
正直、この話題でそこまで攻撃的になるのは奇妙に見える
PCという言葉は、本来の意味ですべてのパーソナルコンピュータを指すこともあれば、Macと対比されるIBM PC系を指すこともあり、曖昧だ
「I'm a Mac, I'm a PC」という広告を思い出せばいい
単にPCと言うと、今では人々は実際どちらの意味なのか混乱するし、「IBM PC」は古臭く、「IBM PC clone」はさらにひどい
だから「Windows PC」はかなり悪くない呼び方で、「Non-Mac PC」は語感もいまひとつだ
わざわざ侮辱的に言う必要はない
企業やゲーム用途の一部の家庭向けデスクトップでWindowsが使われる理由は、今でもハードウェア・ソフトウェア互換性だ
仕事でWindows向けプログラムを作るから使うのであって、Win-for-ARMにはまだ存在しないドライバも使う
だから大半の人にとって「Windows PC」は依然としてx64 Windows PCを意味する
Windows-Arm64の互換性が十分でなければ、どうせ新しいソフトウェアやハードウェアが必要になるのだから、人々がWindows自体から離れる可能性もあるというのがMicrosoftにとってのリスクだ
呪われたNvidia Hackintoshは相当笑えるだろうが
一般ユーザーにとってコンピュータのOSはWindows、Apple、ChromeOSの3つで、NvidiaはChromeOSには行かないだろうし、AppleはNvidiaを嫌っているので、マーケティング可能なまともなOSはWindowsしかない
マーケティングとしては、これらの機器が多くの人のデスクトップ体験を台無しにした安価なChromebookではないことを明確にしている
QualcommはLinuxサポートを約束して失敗しており、その約束で痛い目を見た人たちは、またそのハードウェアを買いたいとは思わないだろう
Windows PCを約束しておけば、Linux、FreeBSD、SerenityOSが起動しないと文句を言う理由は減るし、Qualcommの失敗を見るに、Nvidiaはたぶん正しい選択をしている