- Nvidia Grace-Hopper GH200サーバーを個人向けAIデスクトップへ改造した実験で、235Bパラメータモデルをローカルで実行できるレベルの性能を確保
- Redditで7,500ユーロで中古のGH200システムを購入し、データセンター向け水冷サーバーを空冷デスクトップとして再構築
- 冷却・電源・センサーエラーなどによりGPU温度が1,677万°Cと表示される、ファン回路の損傷、手作業でのはんだ付け修復など、多数のハードウェアトラブルシューティングを実施
- 最終的に4基の水冷クーラー、CNC加工アダプター、3Dプリント部品を組み合わせて安定したシステムを完成
- 総費用は約9,000ユーロで、単体のH100 GPUより安価に超高性能AIワークステーションを構築
Grace-Hopperサーバーの購入と仕様
- Redditのr/LocalLLaMA掲示板で10,000ユーロのGH200サーバーの出品を発見し、交渉の末7,500ユーロで購入
- 構成: 2× Grace-Hopper Superchip、2× 72コア Grace CPU、2× H100 GPU、480GB LPDDR5X、96GB HBM3、合計1,152GBの高速メモリ
- NVLink-C2C帯域幅900GB/s、消費電力1,000〜2,000W、3,000W PSUを搭載
- 販売元はGPTshop.aiで、Nvidiaサーバーをデスクトップ向けに改造して販売する業者
- システムはもともと水冷式サーバーを**空冷式に変換した「フランケンシステム」**のような構成だった
- 外観は無骨でラックマウント不可、48V電源ユニットを装着
サーバーの分解と清掃
- サーバーはひどい粉じん汚れの状態で、8基の高出力ファンが掃除機並みの騒音を発生
- 家庭内での使用が不可能なほど騒がしかったため、分解後に清掃と再組み立てを実施
- イソプロパノールを数リットル使ってメインボード全体を洗浄し、ヒーティングフロアの上で1週間乾燥
- Grace-Hopperモジュール内部の状態を確認するために分解し、内部構造を調査
水冷システムの再構成
- 漏水リスクを避けるため、カスタムブロックではなくArctic Liquid Freezer III 420のAIOクーラー4基を使用
- GPU・CPUダイの寸法を測定後、Fusion 360でアダプターブロックを設計
- Bambu X1 3Dプリンターで試作品を製作し、その後CNC加工で最終部品を完成
- 加工後に残留オイルを除去して取り付けを完了し、冷却性能を確保
デスクトップの組み立て
- ProfilAluアルミニウムプロファイルでフレームを製作し、Fusion 360で設計
- 数十個のPCB・フィルターマウント部品を3Dプリントで製作
- 数kgのフィラメントを使用して構造を安定化
主な問題の発生
- ファン電源の接続中に**「ポップ」という音と煙が発生し、一部のファンヘッダー回路が損傷**
- 電流計算の誤りによりMOSFETが損傷したと推定
- ファン電源は別途12V-5Aアダプターで代用
- ファンエラーによりBMC(Baseboard Management Controller) が起動をブロック
phosphor-sensor-monitor.serviceを無効化してファンチェックを回避
GPU温度エラーと回路修理
- 起動中にGPU温度が16,777,214°Cと表示され、システムが自動停止
- これは24ビット整数の最大値(2²⁴-2) であり、センサー信号エラーを意味
- 顕微鏡で確認した結果、100nFコンデンサと4.7kΩ抵抗の損傷を確認
- 精密はんだ付けで回路を修復し、UVマスクで固定
- 再組み立て後、正常起動に成功
最終構成と性能
- 追加で製作した部品:
- 8TB E1.S SSDマウント、3kW PSU用リアパネル、ラジエーター保護用メッシュ
- GPU初期化問題はNVLink無効化設定で解決
/etc/modprobe.d/nvidia-disable-nvlink.confにNVreg_NvLinkDisable=1を追加
ベンチマーク結果
- 144コアでLlama.cppのビルドに90秒を要し、大規模モデルのテスト結果は以下の通り:
- gpt-oss-120b-Q4_K_M: プロンプト 2974.79、トークン 195.84
- GLM-4.5-Air-Q4_K_M: プロンプト 1936.65、トークン 100.71
- Qwen3-235B-A22B-Instruct: プロンプト 1022.79、トークン 65.90
- GPUあたり約300W消費で、最大値(900W)に対して余裕あり
費用内訳
- Grace-Hopperサーバー €7,500、SSD €250、CNCアダプター €700、水冷クーラー €180
- フレーム €200、ガラスパネル €40、3Dプリント材料 €40、その他部品 €50
- 清掃用イソプロパノール €20、12V電源 €10、LED照明 €10
- 総費用は約€9,000で、単体のH100 GPUより安価
結論
- 235Bパラメータモデルをローカルで実行可能なデスクトップを完成
- データセンター級ハードウェアを個人用途へ転用する過程で、センサーエラー、回路損傷、冷却問題など多くの難関を克服
- 結果として高性能AI研究向けワークステーションを低コストで構築した事例
1件のコメント
Hacker Newsのコメント
データセンター級のAIハードウェアを買って、液冷 → 空冷 → 再び液冷へと改造しながら、GPU温度が1,600万度と表示されるなど数々の危機を乗り越え、最終的に自宅で235Bパラメータのモデルを動かせるデスクトップを完成させたとのこと。
これは無謀な決断と創造的な問題解決、そしてデータセンター機器を日常用途に変えようとする試みの物語だ。
これを見つけるのに1週間かかり、Redditのおかげで解決できた。こういう問題がすべてのデータセンターでも起こり得るのか気になる。
自分にも似た経験がある。3年間、息子と一緒に使うラック型ゲームサーバーを作りたかったのだが、家が狭く妻の許可も出なかったので、実家のPV発電所(90kWp)とラックサーバーを活用した。
2か月前にeBayでSupermicro SYS-7049GP-TRTを1,400ユーロで購入したところ、中を開けるとNvidia V100S 32GBが入っていた。それを1,600ユーロで売って、Xeon 6254 CPUを2基買って載せ替えた。その後Blackwell RTX 4000 Proを2枚購入し、息子とゲームもできるしLLM実験もできるようになった。
このケースにはデュアルGPUを4組搭載できるので、いつかRTX 6000を4枚(合計384GB VRAM)にアップグレードできるかもしれない。中古のエンタープライズ機器は頑丈でコスパも良く、本当に楽しい趣味だ。
7.5kユーロの20kgサーバーを5ユーロのIKEA LACKテーブルの上に置いているのが笑える。LACKの最大耐荷重は25kgなので危なそう。
「取りに行くのに2時間運転した」という話が面白い。文字どおりYour mileage may varyだ。
GPUを動かすまでの過程が苦痛だったので、後に続く探検者のためにインストールコマンドを残してくれたのが印象的だった。
NVIDIA-Linux-aarch64ドライバを入れる必要があり、こういう不可解なコマンドを見るたびに「自分もそこを通った」と共感してしまう。
真面目な話、こういう機材が実際にゲーム性能も高いのか気になる。AI/ML向けに最適化されているせいで、むしろ一般的なゲームはうまく動かないのではないか。
それと「森の中の農家に行った」というくだりで、危険ではなかったのかも気になった。
こういう投稿は本当に素晴らしい。こうしたDIY成功譚こそHacker Newsの醍醐味だ。
もちろん今でも良い買い物ではあるが、H100の新品価格と比較するのはやや大げさだ。今ならRTX 6000 Proを7,000〜8,000ドルで買えて、性能も近い。しかも普通のワークステーションにも載せられる。中古エンタープライズ機器の減価償却は非常に大きい。
BlackwellはFP8ではH100の2倍速いが、比較はFP4なので実際には事情が異なる。VRAM帯域幅もHBM3ベースで4.9TB/sあり、RTX 6000 Proの1.8TB/sより2.5倍速い。
NVLink-C2Cはカード間で900GB/sとPCIe5の約5倍で、大規模LLMではこれがボトルネックを減らしてくれる。
たとえば GPT-OSS-120Bベンチマーク では、RTX 6000 Proは毎秒145トークン、GH200は195トークンを生成している。
まさにサイバーパンクな夢を現実で生きている感じだ。こういう挑戦をする勇気はすごい。
中古エンタープライズ機器を買えるショップのおすすめを知りたい。大半はカリフォルニアにあるようだが、NY/NJ周辺にもあるのだろうか。