$2000のEPYCサーバーでDeepSeek R1 671bモデルをローカル実行する方法

(digitalspaceport.com)

3 ポイント投稿者 GN⁺ 2025-02-02 | 1件のコメント | WhatsAppで共有

AMD EPYC RomeシステムをベースにしたDeepseek AI Rigは優れた性能を提供する
Q4 671bモデルでは4.25〜3.5 TPSを記録し、CPUのみでも十分に実行可能
このシステムは大容量のGPU VRAMがなくても動作し、技術的な挑戦を楽しみたい人にとって面白いプロジェクトになり得る。
蒸留版は性能が落ちるため、「フルモデル」を使うことを推奨
- 16K以上のコンテキストウィンドウをサポートし、より良い性能を提供する

Local AI CPU Compute Hardware

既存のクアッド3090ガイドに従って構成したシステムは、今でも十分に強力。MZ32-AR0マザーボードは、512GB〜1TBのシステムRAMを低コストで構成できる。現在は2400 DDR4 RAMを使用しているが、3200速度のDDR4 ECC RAMを使えば性能が向上する可能性がある。
構成部品と費用:
- ラックフレーム: $55
- MZ32-AR0マザーボード: $500
- 420mm水冷クーラー Corsair h170i elite capellix xt: $170
- 64コア AMD EPYC 7702: $650
- 512GB 2400 ECC RAM: $400
- 1TB NVMe – Samsung 980 Pro: $75
- 850W PSU: $80
総費用: 約$2000

ラック組み立て

既存ガイドと同様に組み立てるが、GPUとライザーカードは除外する
後からGPUを追加する予定なら、最初から1500Wまたは1600W PSUを使うのがよい
RAMスティックの温度を下げるため、80mmファン4基でファンウォールを構成することを推奨

マザーボードアップグレードに関する注意事項

AMD EPYC 7V13 CPUを使う場合は、MZ32-AR0 V3版のマザーボードを使うのがよい
V1版のマザーボードはMilan CPUをサポートしない可能性があるため、BIOSアップデートでV3に更新する必要がある

ローカルAIのセルフホスト用ソフトウェア設定

Ubuntu 24.04サーバー版のインストールを推奨
BMC設定でネットワークIP設定を固定IPにする
BIOS設定で以下の変更を行う:
- NPSを1に設定
- CCDをAutoに設定
- SMTを無効化
- SVMを無効化
- IOMMUを無効化
- cTDPを200に設定
- deterministic controlをmanualに設定し、スライダーをperformanceに設定
- quick power policyをperformanceに設定
- BoostFMaxをmanualに設定し、値を3400に設定

Ollamaのインストール

次のコマンドでOllamaをインストール:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

環境変数を設定し、ollama.serviceファイルを作成してサービスとして登録する

DeepSeek 671bモデルのダウンロード

次のコマンドでDeepSeek 671bモデルをダウンロードする:
```
ollama pull deepseek-r1:671b  
```
このモデルは約400GBのディスク容量を使用するため、十分な保存領域を確保する必要がある

OpenWEBUIのインストール

Dockerを使ってOpenWEBUIをインストールする
Docker Composeを使ってOpenWEBUIサービスを設定して実行する

OpenWEBUIとOllamaの接続

OpenWEBUIの設定でOllamaサーバーを追加し、接続状態を確認する
高度なパラメータでGPU設定、Reasoning Effort、Context Length、num_threadなどを設定する

テスト実行

OpenWEBUIで新しいチャットを開始し、DeepSeek-r1:671bモデルを選択してテスト会話を行う

このガイドに従えば、約$2000の予算でDeepSeek R1 671bモデルをローカルで実行できる

1件のコメント

GN⁺ 2025-02-02

Hacker Newsの意見

671BモデルをQ4量子化でシングルソケットのEpycサーバー上で動かすコストは$2Kで、512GBのRAMを使用する。Q8ではデュアルソケットのEpycサーバーで768GBのRAMを使い、6〜8 TPSを提供し、コストは$6Kかかる。RAM速度がTPSに与える影響が気になる。
オンラインでのR1のコストは$2/MTokで、この装備では4 tok/s以上を実行でき、時間当たりのコストは$0.04になる。電力コストは1時間当たり$0.20と見積もられる。プライバシーを除けば、大きな意味はないと思う。
現在のAIの奇妙な点は、最高のモデルを動かしたいのにハードウェアコストが高いことだ。1990年代には安価なハードウェアでLinuxを動かせた。最新のAIモデルはより多くのRAMを必要とする。昔にもこういうことがあったのだろうか。コンピューターゲームは良い例かもしれない。
より小さいモデル（33b〜70b）で5〜10 tokens/secを得るほうが、もっと興味深いと思う。$3kのGPUや$2kの装備にお金を使いたくない。
英語とスペイン語の翻訳だけをする小さなモデルや、Unixユーティリティとbashを理解するモデルに意味があるのか気になる。訓練内容を制限することが、結果の品質やモデルサイズに影響するのかは分からない。
EPYC 9274Fと384GB RAMでワークステーションを構築したが、期待していた性能は得られなかった。さまざまなベンチマークテストを行ったが、Fujitsuのベンチマークの半分にも届かない結果だった。
$3000のNVIDIA Digitsがもっと頻繁に話題にならないのが驚きだ。AIには懐疑的だったが、今ではDeepSeekをローカルで動かすつもりだ。
$2Kで買えることに驚いている。低消費電力のデスクトップを構築するための提案を探している。
YouTuberとして、電力とRAM速度に関する統計を共有する。アイドル時の消費電力は60w、負荷時は260wで、RAM速度は2400だ。
r6a.16xlargeでモデルを実行したが、最初のプロンプトの後にモデルのロードにかなり時間がかかる。512GB RAMでは4kを超えるコンテキストサイズを使えない。モデル設定に詳しくないので、何か見落としているかもしれない。

$2000のEPYCサーバーでDeepSeek R1 671bモデルをローカル実行する方法

Local AI CPU Compute Hardware

ラック組み立て

マザーボードアップグレードに関する注意事項

ローカルAIのセルフホスト用ソフトウェア設定

Ollamaのインストール

DeepSeek 671bモデルのダウンロード

OpenWEBUIのインストール

OpenWEBUIとOllamaの接続

テスト実行

関連記事

1件のコメント

Hacker Newsの意見