- 8基のRTX 3090グラフィックカードで駆動する専用LLMサーバー。合計192GBのVRAM
- MetaのLlama-3.1 405Bの実行を念頭に構築
背景
- 3月に48GBのVRAMでLLM実験を進めるのに苦労した
- より多くのVRAMが必要だと感じ、新しいシステムを構築することにした
- CPU/プラットフォームの選択、メモリ速度の重要性、PCIeレーンの必要性など、さまざまな疑問が生じた
- 何時間にもわたる調査の末、次のようなプラットフォームを選択した
- Asrock Rack ROMED8-2Tマザーボード (7x PCIe 4.0x16スロット、128 PCIeレーン)
- AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHzブースト、64コア/128スレッド)
- 512GB DDR4-3200 3DS RDIMMメモリ
- 1600ワット電源ユニット 3基
- RTX 3090 GPU x8 (4x NVLink、各ペアあたり112GB/sのデータ転送速度)
ブログシリーズ予告
- このシステムを組み立てる過程での課題
- 金属フレームに穴を開け、30アンペア240ボルトのブレーカーを追加する作業
- CPUソケットのピンを曲げてしまうこと(家庭では真似しないこと)
- PCIeライザーの問題点と、SASデバイスアダプター、リドライバー、リタイマーの重要性
- NVLink速度、PCIeレーン帯域幅、VRAM転送速度、NvidiaのソフトウェアレベルにおけるP2PネイティブPCIe帯域幅の遮断
- TensorRT-LLM、vLLM、Aphrodite Engineのような推論エンジンのベンチマーク
- 独自のLLMの学習とファインチューニング
結論
- 技術の進歩を見ながら、2004年に60GB HDDを手に入れたときの興奮を思い出す
- 20年後には、192GBのVRAMを大容量だと思っていた時代を振り返るのかもしれない
- このプロジェクトを通じて、未来のすばらしい技術を生み出すことに貢献したい
GN⁺のまとめ
- この記事は、AIモデル向けの高性能サーバーを構築する過程を扱っている
- 最新のGPUと高性能CPUを使ってLLMサーバーを構築する方法を説明している
- 技術進歩の速度と未来への期待感を表現している
- 類似プロジェクトとしては、NvidiaのDGXシステムやGoogleのTPUなどがある
2件のコメント
ただただうらやましいです..
Hacker Newsの意見
1つ目のコメント: 個人データ保護のために自前のサーバーを構築した。最近プラットフォームの出力品質が低下しているため、この構成にお金をかけたことを後悔していない
2つ目のコメント: 192GB VRAMが多いと思っていた時代を懐かしく振り返ることになるかもしれない
3つ目のコメント: 8基のGPUを使って4Kモニターをベゼルレスのミニピクセルウォールに変換するプロジェクト
4つ目のコメント: NVLinkがどれほど役立つのか気になっている
5つ目のコメント: とてもクールだが、24時間365日生産的に活用しないならコストが高い
6つ目のコメント: Tinyboxとのコスト比較が気になる
7つ目のコメント: 似たような構成を地下室に持っている
8つ目のコメント: マザーボードにはPCIeスロットが7本あるのに、どうやって8基のGPUを接続するのか気になっている
9つ目のコメント: PCIe 4.0 x16スロットが7本ある場合、8枚目のカードをどう接続するのか気になっている
10つ目のコメント: このシリーズを読むのを楽しみにしている