地下室で提供するAI – 192GB + 8x RTX 3090
(ahmadosman.com)- 個人LLM実験の規模が大きくなるにつれ、8x RTX 3090と合計192GB VRAMを備えた専用AIサーバーを自宅に直接構築
- 従来の48GB VRAM環境では実験に追いつくのが難しくなり、MetaのLlama-3.1 405Bの実行まで見据えたマルチGPUノードへ拡張
- 構成の中心は、Asrock Rack ROMED8-2T、AMD Epyc Milan 7713、512GB DDR4-3200 RDIMM、1600W電源ユニット3基、4x NVLinkで束ねた8基のRTX 3090
- NVLinkはGPUペアごとに112GB/sの転送速度を提供し、PCIeレーン・ライザー・推論エンジン・ファインチューニングのようなボトルネックも続編記事の主要テーマとして残されている
- 家庭用の大型LLMサーバー構築は可能だが、組み立ての難しさやコスト面で大きな失敗も多く、ハードウェアの選定と検証プロセスが成否を左右する
地下室LLMサーバーの目標
- 最新のサイドプロジェクトであるAI from The Basementは専用LLMサーバーで、8x RTX 3090グラフィックカードと合計192GB VRAMを備える
- 目標のひとつはMetaのLlama-3.1 405Bを動かすこと
- 以前はLLM実験に48GB VRAMを使っていたが、2024年3月ごろ、この容量では実験に追いつくのが難しいと判断
- ハードウェア選定では、CPUとプラットフォーム、メモリ速度、PCIeレーン数、2^n個のGPU構成、テンソル並列性、推論エンジンの選択をあわせて検討
ハードウェア構成と構築過程の論点
- 最終的なプラットフォームは、サーバー級マザーボードとEPYC CPU、大容量メモリ、複数の電源ユニット、8基のGPUの組み合わせで構成
- Asrock Rack ROMED8-2Tマザーボード: 7x PCIe 4.0 x16スロット、128 PCIeレーン
- AMD Epyc Milan 7713 CPU: 2.00GHz、ブースト3.675GHz、64コア/128スレッド
- 512GB DDR4-3200 3DS RDIMMメモリ
- 1600W電源ユニット3基
- 8x RTX 3090 GPUと4x NVLink
- NVLinkは各GPUペア間で112GB/sのデータ転送速度を提供
- 実際の組み立てでは、金属フレームの穴加工、30A 240Vブレーカーの追加、CPUソケットのピン曲がりといった物理的な問題が発生
- PCIeライザーの問題と、エラーのないPCIe接続のためにSAS Device Adapter、Redriver、Retimerの重要性にも触れている
- 続編では、NVLink速度、PCIeレーン帯域幅、VRAM転送速度、NvidiaがソフトウェアレベルでP2PネイティブPCIe帯域幅を遮断した判断が続いて扱われる予定
- TensorRT-LLM、vLLM、Aphrodite Engineのようなテンソル並列性対応の推論エンジンのベンチマークと、独自のLLM学習・ファインチューニングも次のテーマとして残されている
- 2004年に60GB HDDを持って喜んでいた経験と比べ、20年後には1台のマシンのグラフィックカードにその3倍を超える容量を持つようになった点を、技術発展の例として挙げる
- プロジェクトの目的は、未来に登場する素晴らしいものを作ることに貢献することであり、いつか192GB VRAMですら多くなかったと振り返る日が来るかもしれないと見る
- Part II of this Blogpost Seriesが続編記事として提供されている
1件のコメント
ただただうらやましいです..