地下室で提供するAI – 192GB + 8x RTX 3090

(ahmadosman.com)

3 ポイント投稿者 GN⁺ 2024-09-09 | 1件のコメント | WhatsAppで共有

個人LLM実験の規模が大きくなるにつれ、8x RTX 3090と合計192GB VRAMを備えた専用AIサーバーを自宅に直接構築
従来の48GB VRAM環境では実験に追いつくのが難しくなり、MetaのLlama-3.1 405Bの実行まで見据えたマルチGPUノードへ拡張
構成の中心は、Asrock Rack ROMED8-2T、AMD Epyc Milan 7713、512GB DDR4-3200 RDIMM、1600W電源ユニット3基、4x NVLinkで束ねた8基のRTX 3090
NVLinkはGPUペアごとに112GB/sの転送速度を提供し、PCIeレーン・ライザー・推論エンジン・ファインチューニングのようなボトルネックも続編記事の主要テーマとして残されている
家庭用の大型LLMサーバー構築は可能だが、組み立ての難しさやコスト面で大きな失敗も多く、ハードウェアの選定と検証プロセスが成否を左右する

地下室LLMサーバーの目標

最新のサイドプロジェクトであるAI from The Basementは専用LLMサーバーで、8x RTX 3090グラフィックカードと合計192GB VRAMを備える
目標のひとつはMetaのLlama-3.1 405Bを動かすこと
以前はLLM実験に48GB VRAMを使っていたが、2024年3月ごろ、この容量では実験に追いつくのが難しいと判断
ハードウェア選定では、CPUとプラットフォーム、メモリ速度、PCIeレーン数、2^n個のGPU構成、テンソル並列性、推論エンジンの選択をあわせて検討

ハードウェア構成と構築過程の論点

最終的なプラットフォームは、サーバー級マザーボードとEPYC CPU、大容量メモリ、複数の電源ユニット、8基のGPUの組み合わせで構成
- Asrock Rack ROMED8-2Tマザーボード: 7x PCIe 4.0 x16スロット、128 PCIeレーン
- AMD Epyc Milan 7713 CPU: 2.00GHz、ブースト3.675GHz、64コア/128スレッド
- 512GB DDR4-3200 3DS RDIMMメモリ
- 1600W電源ユニット3基
- 8x RTX 3090 GPUと4x NVLink
NVLinkは各GPUペア間で112GB/sのデータ転送速度を提供
実際の組み立てでは、金属フレームの穴加工、30A 240Vブレーカーの追加、CPUソケットのピン曲がりといった物理的な問題が発生
PCIeライザーの問題と、エラーのないPCIe接続のためにSAS Device Adapter、Redriver、Retimerの重要性にも触れている
続編では、NVLink速度、PCIeレーン帯域幅、VRAM転送速度、NvidiaがソフトウェアレベルでP2PネイティブPCIe帯域幅を遮断した判断が続いて扱われる予定
TensorRT-LLM、vLLM、Aphrodite Engineのようなテンソル並列性対応の推論エンジンのベンチマークと、独自のLLM学習・ファインチューニングも次のテーマとして残されている
2004年に60GB HDDを持って喜んでいた経験と比べ、20年後には1台のマシンのグラフィックカードにその3倍を超える容量を持つようになった点を、技術発展の例として挙げる
プロジェクトの目的は、未来に登場する素晴らしいものを作ることに貢献することであり、いつか192GB VRAMですら多くなかったと振り返る日が来るかもしれないと見る
Part II of this Blogpost Seriesが続編記事として提供されている

1件のコメント

brainer 2024-09-09

ただただうらやましいです..

地下室で提供するAI – 192GB + 8x RTX 3090

地下室LLMサーバーの目標

ハードウェア構成と構築過程の論点

関連記事

1件のコメント