$2000のEPYCサーバーでDeepSeek R1 671bモデルをローカル実行する方法
(digitalspaceport.com)- AMD EPYC RomeシステムをベースにしたDeepseek AI Rigは優れた性能を提供する
- Q4 671bモデルでは4.25〜3.5 TPSを記録し、CPUのみでも十分に実行可能
- このシステムは大容量のGPU VRAMがなくても動作し、技術的な挑戦を楽しみたい人にとって面白いプロジェクトになり得る。
- 蒸留版は性能が落ちるため、「フルモデル」を使うことを推奨
- 16K以上のコンテキストウィンドウをサポートし、より良い性能を提供する
Local AI CPU Compute Hardware
- 既存のクアッド3090ガイドに従って構成したシステムは、今でも十分に強力。MZ32-AR0マザーボードは、512GB〜1TBのシステムRAMを低コストで構成できる。現在は2400 DDR4 RAMを使用しているが、3200速度のDDR4 ECC RAMを使えば性能が向上する可能性がある。
- 構成部品と費用:
- ラックフレーム: $55
- MZ32-AR0マザーボード: $500
- 420mm水冷クーラー Corsair h170i elite capellix xt: $170
- 64コア AMD EPYC 7702: $650
- 512GB 2400 ECC RAM: $400
- 1TB NVMe – Samsung 980 Pro: $75
- 850W PSU: $80
- 総費用: 約$2000
ラック組み立て
- 既存ガイドと同様に組み立てるが、GPUとライザーカードは除外する
- 後からGPUを追加する予定なら、最初から1500Wまたは1600W PSUを使うのがよい
- RAMスティックの温度を下げるため、80mmファン4基でファンウォールを構成することを推奨
マザーボードアップグレードに関する注意事項
- AMD EPYC 7V13 CPUを使う場合は、MZ32-AR0 V3版のマザーボードを使うのがよい
- V1版のマザーボードはMilan CPUをサポートしない可能性があるため、BIOSアップデートでV3に更新する必要がある
ローカルAIのセルフホスト用ソフトウェア設定
- Ubuntu 24.04サーバー版のインストールを推奨
- BMC設定でネットワークIP設定を固定IPにする
- BIOS設定で以下の変更を行う:
- NPSを1に設定
- CCDをAutoに設定
- SMTを無効化
- SVMを無効化
- IOMMUを無効化
- cTDPを200に設定
- deterministic controlをmanualに設定し、スライダーをperformanceに設定
- quick power policyをperformanceに設定
- BoostFMaxをmanualに設定し、値を3400に設定
Ollamaのインストール
-
次のコマンドでOllamaをインストール:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
環境変数を設定し、ollama.serviceファイルを作成してサービスとして登録する
DeepSeek 671bモデルのダウンロード
-
次のコマンドでDeepSeek 671bモデルをダウンロードする:
ollama pull deepseek-r1:671b -
このモデルは約400GBのディスク容量を使用するため、十分な保存領域を確保する必要がある
OpenWEBUIのインストール
- Dockerを使ってOpenWEBUIをインストールする
- Docker Composeを使ってOpenWEBUIサービスを設定して実行する
OpenWEBUIとOllamaの接続
- OpenWEBUIの設定でOllamaサーバーを追加し、接続状態を確認する
- 高度なパラメータでGPU設定、Reasoning Effort、Context Length、num_threadなどを設定する
テスト実行
- OpenWEBUIで新しいチャットを開始し、DeepSeek-r1:671bモデルを選択してテスト会話を行う
このガイドに従えば、約$2000の予算でDeepSeek R1 671bモデルをローカルで実行できる
1件のコメント
Hacker Newsの意見
671BモデルをQ4量子化でシングルソケットのEpycサーバー上で動かすコストは$2Kで、512GBのRAMを使用する。Q8ではデュアルソケットのEpycサーバーで768GBのRAMを使い、6〜8 TPSを提供し、コストは$6Kかかる。RAM速度がTPSに与える影響が気になる。
オンラインでのR1のコストは$2/MTokで、この装備では4 tok/s以上を実行でき、時間当たりのコストは$0.04になる。電力コストは1時間当たり$0.20と見積もられる。プライバシーを除けば、大きな意味はないと思う。
現在のAIの奇妙な点は、最高のモデルを動かしたいのにハードウェアコストが高いことだ。1990年代には安価なハードウェアでLinuxを動かせた。最新のAIモデルはより多くのRAMを必要とする。昔にもこういうことがあったのだろうか。コンピューターゲームは良い例かもしれない。
より小さいモデル(33b〜70b)で5〜10 tokens/secを得るほうが、もっと興味深いと思う。$3kのGPUや$2kの装備にお金を使いたくない。
英語とスペイン語の翻訳だけをする小さなモデルや、Unixユーティリティとbashを理解するモデルに意味があるのか気になる。訓練内容を制限することが、結果の品質やモデルサイズに影響するのかは分からない。
EPYC 9274Fと384GB RAMでワークステーションを構築したが、期待していた性能は得られなかった。さまざまなベンチマークテストを行ったが、Fujitsuのベンチマークの半分にも届かない結果だった。
$3000のNVIDIA Digitsがもっと頻繁に話題にならないのが驚きだ。AIには懐疑的だったが、今ではDeepSeekをローカルで動かすつもりだ。
$2Kで買えることに驚いている。低消費電力のデスクトップを構築するための提案を探している。
YouTuberとして、電力とRAM速度に関する統計を共有する。アイドル時の消費電力は60w、負荷時は260wで、RAM速度は2400だ。
r6a.16xlargeでモデルを実行したが、最初のプロンプトの後にモデルのロードにかなり時間がかかる。512GB RAMでは4kを超えるコンテキストサイズを使えない。モデル設定に詳しくないので、何か見落としているかもしれない。