HomeローカルLLMマシン構成の経験共有

6 ポイント投稿者 popopo 2025-11-09 | 9件のコメント | WhatsAppで共有

Nvidia DGX Spark を見て、GB10 に大きな期待をしていたのですが、レビューを見ると失望のほうが大きいですね。メモリ帯域幅が他の性能の足を引っ張っているようです。

AMD Strix Halo と性能が同程度だったり、場合によってはそれ以上だったりすることもありました。

（統合メモリ 64GB で出ていますが、オプションで 128GB、vRAM 96GB の割り当てが可能）

FP4 対応、CUDA、ConnectX-7 に加えて、拡張時には 128GB メモリが追加されるとはいえ、本体価格が Strix Halo と比べて 2 倍を超えるので、とても手が出ません。

AMD ROCm は CUDA と比べてエコシステムが弱いとはいえ、これまで私が作ったプログラムは問題なく動いているので、こちらに傾いています（300万円前後で 128GB 2TB SoC を購入可能）。予算や消費電力を考慮したシステム構成を、皆さんがどうされたのか気になります。

私は AMD Strix Halo で、OS は Fedora ベースの Bazzite にしようと思っています。グラフィックドライバは標準で一通り入っていますし、Distrobox と mise を入れれば、私が作ったプログラムや必要なモデルも動かせそうでした。

9件のコメント

popopo 2025-11-18

光棍節セールで買った Strix Halo マシンが届き、Bazzite を入れて distrobox でいくつか画像生成を試してみました。予想どおりの性能は出ました（LLM はそれほど高くありませんでした）。単に高性能なミニ PC と考えればいいです。

統合メモリの 96GB 以上を vRAM に割り当てられるそうですが、動的に変化して確認できないのか、今のところ 96GB を超えて割り当てられているのは見たことがありません。

構成は https://strixhalo.wiki/ のサイトを参照しました。購入ガイド（Strix Halo - Mac - DGS Spark - 6000）の比較表もあるので、参考にすると役立つと思います。

Bazzite の宣伝：OS は不変イメージとして管理し、そのほかのプログラムはバッテリー（flatpak、brew など）で管理します。更新コマンドでファームウェアからすべてのパッケージまで更新されます。OS が汚れてきたと思ったらユーザーパスだけ整理すれば大丈夫です（OS は一般的な方法では触れません）。AMD ドライバがすべて入っているので、ROCm をすぐ使えます。

コンテナのランチャーとして出てきた OS が fedora coreOS ですが、そこに各種ユーザー設定を加えた Bazzite は、一般用途にも開発用途にも便利で、使い勝手が非常に優れています。コンテナ（distrobox）、wine、tailscale が標準でインストールされています。ここに mise だけ追加すれば、欲しい機能はだいたい全部管理できると思います。

最初から設定しながらガイドを作るつもりでしたが、以前使っていた Bazzite のユーザーアカウントディレクトリを丸ごとコピーしたら設定が全部移ってきてしまい、設定ガイドを……作れなくなりました。

minsuchae 2025-11-11

私個人の意見としては、Mac と Nvidia DGX Spark の場合はユニファイドメモリ、それ以外は RAM と VRAM を分ける方式に大きく分かれると思います。
その中でも一部製品では、内蔵グラフィックスの VRAM 割り当てにシステム RAM を使う方式もあります。
非専門家には Mac や Nvidia DGX Spark を勧めますが、ある程度自分で試行錯誤できるなら AMD を使うほうが良い場合もあります。
それぞれに長所と短所があります。

Mac や Nvidia DGX Spark などは、自分で RAM をアップグレードできないため、事前に構成を決めて購入しなければならないという欠点があります。
AMD は自分で RAM を増設できるという利点がありますが、VRAM の割り当てには限界があります。

つまり、128GB 以上を VRAM として使ってみたいという観点では、Mac Studio が最も有利な選択肢です。
試行錯誤の余地は少ないですが、Mac Studio は推論には向いている一方で学習には不利という欠点があります。（学習では AMD より遅い）

Nvidia DGX Spark の場合、メモリを 128GB 以上で構成しようとすると Nvidia の別売りケーブルまで購入しなければならないという欠点があります。
しかし、AI 学習では CUDA が基本的に使われているため、最も手間が少ないです。
また、性能については VRAM を除けば 5070 級という噂と、メモリ帯域幅の限界があります…（学習を考えるなら無難な選択肢）

内蔵グラフィックスを利用した VRAM 割り当て
最近のメモリ価格上昇の影響で物足りない選択肢ではありますが、それでも RAM オプションを考えれば Mac よりかなり安いです。
ただし AMD ROCm の対応が十分でないため、自分で苦労する必要があるという欠点があり、非専門家にはおすすめできません。（また、VRAM をさらに増やすのは事実上不可能です…）

こんなふうに整理できると思います。
コストパフォーマンスだけを考えるなら AMD は良いですね…。ただ、気楽に使うなら Mac Studio も悪くない選択肢です。推論だけを考えるなら、十分にコスパの範囲に入りますので…

minsuchae 2025-11-11

AMD の場合、RAM を自分で増設できるという利点はありますが、VRAM の割り当てには限界があります。
-> この部分は整理せずに書いてしまって、誤った表現でした。システム RAM と VRAM を分ける場合、一部はアップグレードできることもありますが、ノート PC 基準ではアップグレードできないものも多いです。

dhy0613 2025-11-11

5070Ti Superを待つのはやめて、Radeonに惹かれてこんな構成で使っています。

9800x3D
中古の7900 XTX
96GB RAM

パーティションを分けてUbuntu 24.10を入れ、ROCm 7.1を導入したところ、LLM InferenceやPyTorchを使う程度のComfyUI周りでは大きな問題なく快適に動いています。

SageAttentionが使えないのは少し難点ですが、価格を考えればこんなものかなと思っています.

clastneo 2025-11-10

Max Studioの大きいモデルを買おうかと思っていたのですが、Home LLM関連でこんなに選択肢が増えていたとは知りませんでした。
もしよければ、Strix側の設定をどのように構成されているのか伺ってもよろしいでしょうか？

popopo 2025-11-10

Strix Halo はまだ購入前ですが、似た構成として AMD GPU を使うゲーム用コンピューターで、16GB の vRAM を使っておよそ 6億件のケースを計算しました。

一度組んで、その場その場で検索しながらやったので、記憶は正確ではありません。

Bazzite を使っているのでグラフィックドライバーは入っており、特に変わった点はありませんでした。ROCm と関連モジュールを distrobox 内の Rocky Linux にインストールした後、各種 GPU を使う計算を行いました。

高速なメモリ帯域幅があるので、Mac Studio も検討してみる価値があるのではないでしょうか。128GB／2TB オプションを付けると 4000 ドルにはなります。Mac アーキテクチャである点も、AMD に行くのと大きな違いはないように思います。

clastneo 2025-11-11

回答を参考にさせていただきます。
ご丁寧に回答してくださり、ありがとうございます！

popopo 2025-11-09

https://www.youtube.com/watch?v=Pww8rIzr1pg をベースに、Gemini に比較してもらった結果

📊 128GB LLM 実行オプション比較（2025年11月、ベンチマーク反映）

動画内容を反映: Hardware Unboxed のベンチマークを基準にすると、Strix Halo は M3 Max より優位（約30〜35%向上）で、GB10 "Spark" システムはこれらの APU/統合チップセットよりはるかに優れた専用 NPU/GPU 性能を示します。（Llama 3 70B Q4 推論基準 T/s）

構成オプション (128GB) T/s（推定）システム消費電力（推定） T/W（電力効率）システム費用（推定） Cost/T（コスト効率）
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 約520万ウォン 4.33万ウォン/T
4 x RTX 5080 32GB（新品） 240 T/s 1500 W 0.16 約1,200万ウォン 5.0万ウォン/T
6 x RTX 3090（中古） 90 T/s 2300 W 0.04 約700万ウォン 7.8万ウォン/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 約260万ウォン 8.67万ウォン/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 約600万ウォン 27.3万ウォン/T

💡 分析と結論（誤り修正）

私の重大なミスを正し、動画の内容を正確に反映して改めて分析します。

「コストパフォーマンス（Cost/T）」チャンピオン: NVIDIA "Spark" (GB10)  

    Cost/T（コスト効率）: 4.33万ウォン/T  

    Hardware Unboxed の動画で示されたように、3999ドルの 'Spark' システムは 2000ドルの 'Strix Halo' システムよりはるかに優れた LLM 推論性能（T/s）を提供します。  

    その結果、トークン当たりのシステム構築コスト（Cost/T）が全オプション中で最も低く、「コスパ」チャンピオンになります。  

    T/W（電力効率）も 0.30 で、マルチ GPU 構成と比べて圧倒的に効率的です。  

「絶対予算」チャンピオン: AMD Strix Halo (128GB)  

    Cost/T（コスト効率）: 8.67万ウォン/T  

    このシステムの価値は絶対速度（30 T/s）ではなく、**約260万ウォン（2000ドル）** という圧倒的な「最低コスト」で 128GB の VRAM 環境に入れる点にあります。  

    動画で M3 Max を上回ることが確認されたように、個人開発者にとっては優れた「入門用」オプションです。  

「絶対速度」チャンピオン: 4 x RTX 5080 32GB  

    T/s（速度）: 240 T/s  

    'Spark' や 'Strix Halo' のような統合システムは推論（Inference）には強力ですが、モデルを直接「ファインチューニング（微調整）」するには限界がある可能性があります。  

    もし最速の推論速度に加えて、モデルを直接訓練・修正する柔軟性まで求めるなら、依然としてマルチ単体 GPU 構成（4 x 5080）が最も強力な選択肢です.

popopo 2025-11-10

4K予算内では、DGX Sparkよりクアッド3090のほうが性能がはるかに高いという動画

https://www.youtube.com/watch?v=md6a4ENM9pg

Strix HaloはLocal LLM実行マシンとしてはひどい買い物だという主張

https://reddit.com/r/LocalLLaMA/…

電力消費は重要な基準になりにくく、帯域幅のせいで大きなモデルをメモリにロードしても活用できない……というのが主な主張のようですね.

HomeローカルLLMマシン構成の経験共有

関連記事

9件のコメント