Nvidia GH200サーバーを7,500ユーロで購入し、デスクトップに改造した事例

(dnhkng.github.io)

1 ポイント投稿者 GN⁺ 2025-12-12 | 1件のコメント | WhatsAppで共有

Nvidia Grace-Hopper GH200サーバーを個人向けAIデスクトップへ改造した実験で、235Bパラメータモデルをローカルで実行できるレベルの性能を確保
Redditで7,500ユーロで中古のGH200システムを購入し、データセンター向け水冷サーバーを空冷デスクトップとして再構築
冷却・電源・センサーエラーなどによりGPU温度が1,677万°Cと表示される、ファン回路の損傷、手作業でのはんだ付け修復など、多数のハードウェアトラブルシューティングを実施
最終的に4基の水冷クーラー、CNC加工アダプター、3Dプリント部品を組み合わせて安定したシステムを完成
総費用は約9,000ユーロで、単体のH100 GPUより安価に超高性能AIワークステーションを構築

Grace-Hopperサーバーの購入と仕様

Redditのr/LocalLLaMA掲示板で10,000ユーロのGH200サーバーの出品を発見し、交渉の末7,500ユーロで購入
- 構成: 2× Grace-Hopper Superchip、2× 72コア Grace CPU、2× H100 GPU、480GB LPDDR5X、96GB HBM3、合計1,152GBの高速メモリ
- NVLink-C2C帯域幅900GB/s、消費電力1,000〜2,000W、3,000W PSUを搭載
販売元はGPTshop.aiで、Nvidiaサーバーをデスクトップ向けに改造して販売する業者
- システムはもともと水冷式サーバーを**空冷式に変換した「フランケンシステム」**のような構成だった
- 外観は無骨でラックマウント不可、48V電源ユニットを装着

サーバーの分解と清掃

サーバーはひどい粉じん汚れの状態で、8基の高出力ファンが掃除機並みの騒音を発生
- 家庭内での使用が不可能なほど騒がしかったため、分解後に清掃と再組み立てを実施
イソプロパノールを数リットル使ってメインボード全体を洗浄し、ヒーティングフロアの上で1週間乾燥
Grace-Hopperモジュール内部の状態を確認するために分解し、内部構造を調査

水冷システムの再構成

漏水リスクを避けるため、カスタムブロックではなくArctic Liquid Freezer III 420のAIOクーラー4基を使用
- GPU・CPUダイの寸法を測定後、Fusion 360でアダプターブロックを設計
- Bambu X1 3Dプリンターで試作品を製作し、その後CNC加工で最終部品を完成
加工後に残留オイルを除去して取り付けを完了し、冷却性能を確保

デスクトップの組み立て

ProfilAluアルミニウムプロファイルでフレームを製作し、Fusion 360で設計
- 数十個のPCB・フィルターマウント部品を3Dプリントで製作
- 数kgのフィラメントを使用して構造を安定化

主な問題の発生

ファン電源の接続中に**「ポップ」という音と煙が発生し、一部のファンヘッダー回路が損傷**
- 電流計算の誤りによりMOSFETが損傷したと推定
- ファン電源は別途12V-5Aアダプターで代用
ファンエラーによりBMC(Baseboard Management Controller) が起動をブロック
- phosphor-sensor-monitor.serviceを無効化してファンチェックを回避

GPU温度エラーと回路修理

起動中にGPU温度が16,777,214°Cと表示され、システムが自動停止
- これは24ビット整数の最大値(2²⁴-2) であり、センサー信号エラーを意味
顕微鏡で確認した結果、100nFコンデンサと4.7kΩ抵抗の損傷を確認
- 精密はんだ付けで回路を修復し、UVマスクで固定
- 再組み立て後、正常起動に成功

最終構成と性能

追加で製作した部品:
- 8TB E1.S SSDマウント、3kW PSU用リアパネル、ラジエーター保護用メッシュ
GPU初期化問題はNVLink無効化設定で解決
- /etc/modprobe.d/nvidia-disable-nvlink.confにNVreg_NvLinkDisable=1を追加

ベンチマーク結果

144コアでLlama.cppのビルドに90秒を要し、大規模モデルのテスト結果は以下の通り:
- gpt-oss-120b-Q4_K_M: プロンプト 2974.79、トークン 195.84
- GLM-4.5-Air-Q4_K_M: プロンプト 1936.65、トークン 100.71
- Qwen3-235B-A22B-Instruct: プロンプト 1022.79、トークン 65.90
GPUあたり約300W消費で、最大値(900W)に対して余裕あり

費用内訳

Grace-Hopperサーバー €7,500、SSD €250、CNCアダプター €700、水冷クーラー €180
フレーム €200、ガラスパネル €40、3Dプリント材料 €40、その他部品 €50
清掃用イソプロパノール €20、12V電源 €10、LED照明 €10
総費用は約€9,000で、単体のH100 GPUより安価

結論

235Bパラメータモデルをローカルで実行可能なデスクトップを完成
データセンター級ハードウェアを個人用途へ転用する過程で、センサーエラー、回路損傷、冷却問題など多くの難関を克服
結果として高性能AI研究向けワークステーションを低コストで構築した事例

1件のコメント

GN⁺ 2025-12-12

Hacker Newsのコメント

データセンター級のAIハードウェアを買って、液冷 → 空冷 → 再び液冷へと改造しながら、GPU温度が1,600万度と表示されるなど数々の危機を乗り越え、最終的に自宅で235Bパラメータのモデルを動かせるデスクトップを完成させたとのこと。
これは無謀な決断と創造的な問題解決、そしてデータセンター機器を日常用途に変えようとする試みの物語だ。
- ドライバにNVLINKを完全に無視するよう指示すると、GPUがPCIe経由で独立して初期化されることを発見した。
  これを見つけるのに1週間かかり、Redditのおかげで解決できた。こういう問題がすべてのデータセンターでも起こり得るのか気になる。
- Redditで同じ投稿を見て自分も買おうか悩んだが、米国在住なので諦めた。詐欺ではなかったようで何より。
- 現金で7,500ユーロ払ったとのことだが、それを全部紙幣で引き出したのか気になる。銀行でそんな大金をどうやって用意したのか知りたい。
- はんだ付けした部品をエポキシで固定したというのが印象的。はんだ付けの腕にかなり自信がないとできなさそう。グルーガンはなかったのだろうか。
自分にも似た経験がある。3年間、息子と一緒に使うラック型ゲームサーバーを作りたかったのだが、家が狭く妻の許可も出なかったので、実家のPV発電所（90kWp）とラックサーバーを活用した。
2か月前にeBayでSupermicro SYS-7049GP-TRTを1,400ユーロで購入したところ、中を開けるとNvidia V100S 32GBが入っていた。それを1,600ユーロで売って、Xeon 6254 CPUを2基買って載せ替えた。その後Blackwell RTX 4000 Proを2枚購入し、息子とゲームもできるしLLM実験もできるようになった。
このケースにはデュアルGPUを4組搭載できるので、いつかRTX 6000を4枚（合計384GB VRAM）にアップグレードできるかもしれない。中古のエンタープライズ機器は頑丈でコスパも良く、本当に楽しい趣味だ。
7.5kユーロの20kgサーバーを5ユーロのIKEA LACKテーブルの上に置いているのが笑える。LACKの最大耐荷重は25kgなので危なそう。
- 実際には元のケースが20kgだっただけで、今はアルミフレームとガラスパネルを追加して40kgくらいになっている。今見るとLACKの上に置くべきではなさそう。
- とはいえLACKテーブルは意外と頑丈だ。サーバーやネットワーク機器用によく使われていて、LackRack wikiにも事例が多い。自分も100kg以上載せたことがある。
- それでも25%の安全マージンはあるはず、という冗談だ。
「取りに行くのに2時間運転した」という話が面白い。文字どおりYour mileage may varyだ。
GPUを動かすまでの過程が苦痛だったので、後に続く探検者のためにインストールコマンドを残してくれたのが印象的だった。
NVIDIA-Linux-aarch64ドライバを入れる必要があり、こういう不可解なコマンドを見るたびに「自分もそこを通った」と共感してしまう。
真面目な話、こういう機材が実際にゲーム性能も高いのか気になる。AI/ML向けに最適化されているせいで、むしろ一般的なゲームはうまく動かないのではないか。
それと「森の中の農家に行った」というくだりで、危険ではなかったのかも気になった。
- 売り手が「サーバーは白いバンの後ろにある」と言って車の後部を見せたときは少し怖かった。幸いその後ろに作業場が見えて安心した。
- こうしたGPUにはHDMIやDisplayPort出力がないので、ゲームをするならVM経由で実行する必要がある。
- ゲーム用途ならRTX PRO 6000 Blackwell + AMD 9800X3D + 低遅延RAM + NVMeの組み合わせが最適。これ以上は投資対効果が悪い。ARMベースのサーバーCPUではDRMの問題も起きる。
- LTTの動画でも似たAI向けGPUをテストしていたが、ゲーミング性能はひどい。中級クラスのコンシューマ向けカードのほうが、10分の1の価格でより良い結果を出していた。
こういう投稿は本当に素晴らしい。こうしたDIY成功譚こそHacker Newsの醍醐味だ。
- その通り。嫉妬心を刺激しつつも、「自分にもできるかも」という вдохきも与えてくれる。
もちろん今でも良い買い物ではあるが、H100の新品価格と比較するのはやや大げさだ。今ならRTX 6000 Proを7,000〜8,000ドルで買えて、性能も近い。しかも普通のワークステーションにも載せられる。中古エンタープライズ機器の減価償却は非常に大きい。
- それでもなお素晴らしい取引だ。理由はRAM/VRAMの微妙な違いにある。
  BlackwellはFP8ではH100の2倍速いが、比較はFP4なので実際には事情が異なる。VRAM帯域幅もHBM3ベースで4.9TB/sあり、RTX 6000 Proの1.8TB/sより2.5倍速い。
  NVLink-C2Cはカード間で900GB/sとPCIe5の約5倍で、大規模LLMではこれがボトルネックを減らしてくれる。
  たとえば GPT-OSS-120Bベンチマークでは、RTX 6000 Proは毎秒145トークン、GH200は195トークンを生成している。
- しかも彼はH100を2基持っている。RTX 6000 Proを2枚買うには1.5万〜1.6万ドル必要で、同梱RAMだけでも7,000ドル以上の価値がある。
まさにサイバーパンクな夢を現実で生きている感じだ。こういう挑戦をする勇気はすごい。
中古エンタープライズ機器を買えるショップのおすすめを知りたい。大半はカリフォルニアにあるようだが、NY/NJ周辺にもあるのだろうか。
- eBayで複数の商品を出している販売者を見つけて追っていけばいい。全国にそういうセラーはかなりいる。

Nvidia GH200サーバーを7,500ユーロで購入し、デスクトップに改造した事例

Grace-Hopperサーバーの購入と仕様

サーバーの分解と清掃

水冷システムの再構成

デスクトップの組み立て

主な問題の発生

GPU温度エラーと回路修理

最終構成と性能

ベンチマーク結果

費用内訳

結論

関連記事

1件のコメント

Hacker Newsのコメント