1 ポイント 投稿者 GN⁺ 2025-12-12 | 1件のコメント | WhatsAppで共有
  • Nvidia Grace-Hopper GH200サーバーを個人向けAIデスクトップへ改造した実験で、235Bパラメータモデルをローカルで実行できるレベルの性能を確保
  • Redditで7,500ユーロで中古のGH200システムを購入し、データセンター向け水冷サーバー空冷デスクトップとして再構築
  • 冷却・電源・センサーエラーなどによりGPU温度が1,677万°Cと表示される、ファン回路の損傷、手作業でのはんだ付け修復など、多数のハードウェアトラブルシューティングを実施
  • 最終的に4基の水冷クーラーCNC加工アダプター3Dプリント部品を組み合わせて安定したシステムを完成
  • 総費用は約9,000ユーロで、単体のH100 GPUより安価に超高性能AIワークステーションを構築

Grace-Hopperサーバーの購入と仕様

  • Redditのr/LocalLLaMA掲示板で10,000ユーロのGH200サーバーの出品を発見し、交渉の末7,500ユーロで購入
    • 構成: 2× Grace-Hopper Superchip、2× 72コア Grace CPU、2× H100 GPU、480GB LPDDR5X、96GB HBM3、合計1,152GBの高速メモリ
    • NVLink-C2C帯域幅900GB/s、消費電力1,000〜2,000W、3,000W PSUを搭載
  • 販売元はGPTshop.aiで、Nvidiaサーバーをデスクトップ向けに改造して販売する業者
    • システムはもともと水冷式サーバーを**空冷式に変換した「フランケンシステム」**のような構成だった
    • 外観は無骨でラックマウント不可、48V電源ユニットを装着

サーバーの分解と清掃

  • サーバーはひどい粉じん汚れの状態で、8基の高出力ファンが掃除機並みの騒音を発生
    • 家庭内での使用が不可能なほど騒がしかったため、分解後に清掃と再組み立てを実施
  • イソプロパノールを数リットル使ってメインボード全体を洗浄し、ヒーティングフロアの上で1週間乾燥
  • Grace-Hopperモジュール内部の状態を確認するために分解し、内部構造を調査

水冷システムの再構成

  • 漏水リスクを避けるため、カスタムブロックではなくArctic Liquid Freezer III 420のAIOクーラー4基を使用
    • GPU・CPUダイの寸法を測定後、Fusion 360でアダプターブロックを設計
    • Bambu X1 3Dプリンターで試作品を製作し、その後CNC加工で最終部品を完成
  • 加工後に残留オイルを除去して取り付けを完了し、冷却性能を確保

デスクトップの組み立て

  • ProfilAluアルミニウムプロファイルでフレームを製作し、Fusion 360で設計
    • 数十個のPCB・フィルターマウント部品を3Dプリントで製作
    • 数kgのフィラメントを使用して構造を安定化

主な問題の発生

  • ファン電源の接続中に**「ポップ」という音と煙が発生し、一部のファンヘッダー回路が損傷**
    • 電流計算の誤りによりMOSFETが損傷したと推定
    • ファン電源は別途12V-5Aアダプターで代用
  • ファンエラーによりBMC(Baseboard Management Controller) が起動をブロック
    • phosphor-sensor-monitor.serviceを無効化してファンチェックを回避

GPU温度エラーと回路修理

  • 起動中にGPU温度が16,777,214°Cと表示され、システムが自動停止
    • これは24ビット整数の最大値(2²⁴-2) であり、センサー信号エラーを意味
  • 顕微鏡で確認した結果、100nFコンデンサと4.7kΩ抵抗の損傷を確認
    • 精密はんだ付けで回路を修復し、UVマスクで固定
    • 再組み立て後、正常起動に成功

最終構成と性能

  • 追加で製作した部品:
    • 8TB E1.S SSDマウント、3kW PSU用リアパネル、ラジエーター保護用メッシュ
  • GPU初期化問題はNVLink無効化設定で解決
    • /etc/modprobe.d/nvidia-disable-nvlink.confNVreg_NvLinkDisable=1を追加

ベンチマーク結果

  • 144コアでLlama.cppのビルドに90秒を要し、大規模モデルのテスト結果は以下の通り:
    • gpt-oss-120b-Q4_K_M: プロンプト 2974.79、トークン 195.84
    • GLM-4.5-Air-Q4_K_M: プロンプト 1936.65、トークン 100.71
    • Qwen3-235B-A22B-Instruct: プロンプト 1022.79、トークン 65.90
  • GPUあたり約300W消費で、最大値(900W)に対して余裕あり

費用内訳

  • Grace-Hopperサーバー €7,500、SSD €250、CNCアダプター €700、水冷クーラー €180
  • フレーム €200、ガラスパネル €40、3Dプリント材料 €40、その他部品 €50
  • 清掃用イソプロパノール €20、12V電源 €10、LED照明 €10
  • 総費用は約€9,000で、単体のH100 GPUより安価

結論

  • 235Bパラメータモデルをローカルで実行可能なデスクトップを完成
  • データセンター級ハードウェアを個人用途へ転用する過程で、センサーエラー、回路損傷、冷却問題など多くの難関を克服
  • 結果として高性能AI研究向けワークステーションを低コストで構築した事例

1件のコメント

 
GN⁺ 2025-12-12
Hacker Newsのコメント
  • データセンター級のAIハードウェアを買って、液冷 → 空冷 → 再び液冷へと改造しながら、GPU温度が1,600万度と表示されるなど数々の危機を乗り越え、最終的に自宅で235Bパラメータのモデルを動かせるデスクトップを完成させたとのこと。
    これは無謀な決断と創造的な問題解決、そしてデータセンター機器を日常用途に変えようとする試みの物語だ。

    • ドライバにNVLINKを完全に無視するよう指示すると、GPUがPCIe経由で独立して初期化されることを発見した。
      これを見つけるのに1週間かかり、Redditのおかげで解決できた。こういう問題がすべてのデータセンターでも起こり得るのか気になる。
    • Redditで同じ投稿を見て自分も買おうか悩んだが、米国在住なので諦めた。詐欺ではなかったようで何より。
    • 現金で7,500ユーロ払ったとのことだが、それを全部紙幣で引き出したのか気になる。銀行でそんな大金をどうやって用意したのか知りたい。
    • はんだ付けした部品をエポキシで固定したというのが印象的。はんだ付けの腕にかなり自信がないとできなさそう。グルーガンはなかったのだろうか。
  • 自分にも似た経験がある。3年間、息子と一緒に使うラック型ゲームサーバーを作りたかったのだが、家が狭く妻の許可も出なかったので、実家のPV発電所(90kWp)とラックサーバーを活用した。
    2か月前にeBayでSupermicro SYS-7049GP-TRTを1,400ユーロで購入したところ、中を開けるとNvidia V100S 32GBが入っていた。それを1,600ユーロで売って、Xeon 6254 CPUを2基買って載せ替えた。その後Blackwell RTX 4000 Proを2枚購入し、息子とゲームもできるしLLM実験もできるようになった。
    このケースにはデュアルGPUを4組搭載できるので、いつかRTX 6000を4枚(合計384GB VRAM)にアップグレードできるかもしれない。中古のエンタープライズ機器は頑丈でコスパも良く、本当に楽しい趣味だ。

  • 7.5kユーロの20kgサーバーを5ユーロのIKEA LACKテーブルの上に置いているのが笑える。LACKの最大耐荷重は25kgなので危なそう。

    • 実際には元のケースが20kgだっただけで、今はアルミフレームとガラスパネルを追加して40kgくらいになっている。今見るとLACKの上に置くべきではなさそう。
    • とはいえLACKテーブルは意外と頑丈だ。サーバーやネットワーク機器用によく使われていて、LackRack wikiにも事例が多い。自分も100kg以上載せたことがある。
    • それでも25%の安全マージンはあるはず、という冗談だ。
  • 「取りに行くのに2時間運転した」という話が面白い。文字どおりYour mileage may varyだ。

  • GPUを動かすまでの過程が苦痛だったので、後に続く探検者のためにインストールコマンドを残してくれたのが印象的だった。
    NVIDIA-Linux-aarch64ドライバを入れる必要があり、こういう不可解なコマンドを見るたびに「自分もそこを通った」と共感してしまう。

  • 真面目な話、こういう機材が実際にゲーム性能も高いのか気になる。AI/ML向けに最適化されているせいで、むしろ一般的なゲームはうまく動かないのではないか。
    それと「森の中の農家に行った」というくだりで、危険ではなかったのかも気になった。

    • 売り手が「サーバーは白いバンの後ろにある」と言って車の後部を見せたときは少し怖かった。幸いその後ろに作業場が見えて安心した。
    • こうしたGPUにはHDMIやDisplayPort出力がないので、ゲームをするならVM経由で実行する必要がある。
    • ゲーム用途ならRTX PRO 6000 Blackwell + AMD 9800X3D + 低遅延RAM + NVMeの組み合わせが最適。これ以上は投資対効果が悪い。ARMベースのサーバーCPUではDRMの問題も起きる。
    • LTTの動画でも似たAI向けGPUをテストしていたが、ゲーミング性能はひどい。中級クラスのコンシューマ向けカードのほうが、10分の1の価格でより良い結果を出していた。
  • こういう投稿は本当に素晴らしい。こうしたDIY成功譚こそHacker Newsの醍醐味だ。

    • その通り。嫉妬心を刺激しつつも、「自分にもできるかも」という вдохきも与えてくれる。
  • もちろん今でも良い買い物ではあるが、H100の新品価格と比較するのはやや大げさだ。今ならRTX 6000 Proを7,000〜8,000ドルで買えて、性能も近い。しかも普通のワークステーションにも載せられる。中古エンタープライズ機器の減価償却は非常に大きい。

    • それでもなお素晴らしい取引だ。理由はRAM/VRAMの微妙な違いにある。
      BlackwellはFP8ではH100の2倍速いが、比較はFP4なので実際には事情が異なる。VRAM帯域幅もHBM3ベースで4.9TB/sあり、RTX 6000 Proの1.8TB/sより2.5倍速い。
      NVLink-C2Cはカード間で900GB/sとPCIe5の約5倍で、大規模LLMではこれがボトルネックを減らしてくれる。
      たとえば GPT-OSS-120Bベンチマーク では、RTX 6000 Proは毎秒145トークン、GH200は195トークンを生成している。
    • しかも彼はH100を2基持っている。RTX 6000 Proを2枚買うには1.5万〜1.6万ドル必要で、同梱RAMだけでも7,000ドル以上の価値がある。
  • まさにサイバーパンクな夢を現実で生きている感じだ。こういう挑戦をする勇気はすごい。

  • 中古エンタープライズ機器を買えるショップのおすすめを知りたい。大半はカリフォルニアにあるようだが、NY/NJ周辺にもあるのだろうか。

    • eBayで複数の商品を出している販売者を見つけて追っていけばいい。全国にそういうセラーはかなりいる。