3 ポイント 投稿者 GN⁺ 2024-09-09 | 2件のコメント | WhatsAppで共有
  • 8基のRTX 3090グラフィックカードで駆動する専用LLMサーバー。合計192GBのVRAM
  • MetaのLlama-3.1 405Bの実行を念頭に構築

背景

  • 3月に48GBのVRAMでLLM実験を進めるのに苦労した
  • より多くのVRAMが必要だと感じ、新しいシステムを構築することにした
  • CPU/プラットフォームの選択、メモリ速度の重要性、PCIeレーンの必要性など、さまざまな疑問が生じた
  • 何時間にもわたる調査の末、次のようなプラットフォームを選択した
    • Asrock Rack ROMED8-2Tマザーボード (7x PCIe 4.0x16スロット、128 PCIeレーン)
    • AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHzブースト、64コア/128スレッド)
    • 512GB DDR4-3200 3DS RDIMMメモリ
    • 1600ワット電源ユニット 3基
    • RTX 3090 GPU x8 (4x NVLink、各ペアあたり112GB/sのデータ転送速度)

ブログシリーズ予告

  • このシステムを組み立てる過程での課題
    • 金属フレームに穴を開け、30アンペア240ボルトのブレーカーを追加する作業
    • CPUソケットのピンを曲げてしまうこと(家庭では真似しないこと)
  • PCIeライザーの問題点と、SASデバイスアダプター、リドライバー、リタイマーの重要性
  • NVLink速度、PCIeレーン帯域幅、VRAM転送速度、NvidiaのソフトウェアレベルにおけるP2PネイティブPCIe帯域幅の遮断
  • TensorRT-LLM、vLLM、Aphrodite Engineのような推論エンジンのベンチマーク
  • 独自のLLMの学習とファインチューニング

結論

  • 技術の進歩を見ながら、2004年に60GB HDDを手に入れたときの興奮を思い出す
  • 20年後には、192GBのVRAMを大容量だと思っていた時代を振り返るのかもしれない
  • このプロジェクトを通じて、未来のすばらしい技術を生み出すことに貢献したい

GN⁺のまとめ

  • この記事は、AIモデル向けの高性能サーバーを構築する過程を扱っている
  • 最新のGPUと高性能CPUを使ってLLMサーバーを構築する方法を説明している
  • 技術進歩の速度と未来への期待感を表現している
  • 類似プロジェクトとしては、NvidiaのDGXシステムやGoogleのTPUなどがある

2件のコメント

 
brainer 2024-09-09

ただただうらやましいです..

 
GN⁺ 2024-09-09
Hacker Newsの意見
  • 1つ目のコメント: 個人データ保護のために自前のサーバーを構築した。最近プラットフォームの出力品質が低下しているため、この構成にお金をかけたことを後悔していない

    • テンソル並列処理とバッチ推論を活用してすばらしい作業を行っている
    • 個人データを使ってモデルをファインチューニングし、合成データを生成している
    • 現在は学習プロジェクトとしてモデルをゼロから構築中で、問題を解決できたらチュートリアルを書く予定だ
    • ブログを始めており、学習と発見に関する一連の投稿を計画している
    • 試してみたいテーマやアイデアがあれば共有する用意がある
  • 2つ目のコメント: 192GB VRAMが多いと思っていた時代を懐かしく振り返ることになるかもしれない

    • NAS向けの大容量HDDは入手しづらくなり、価格もかなり上がった
    • AIでも同じようなことが起きると予想している
    • 大手クラウド事業者は安価な家庭用ハードウェアには関心がなく、クラウドサービスを通じてデータを採掘しようとしている
  • 3つ目のコメント: 8基のGPUを使って4Kモニターをベゼルレスのミニピクセルウォールに変換するプロジェクト

    • ローカルの映像構成とAI生成背景のためのプロジェクトだ
    • "The Mandalorian"の例に触れつつ、リアルタイムのフォトリアル背景を提供するとしている
  • 4つ目のコメント: NVLinkがどれほど役立つのか気になっている

    • 2基の3090のリグを構築しており、EPYCでさらに多くのカードを使えるのか知りたい
    • 総費用は約$3500で、この構成は$12-15k近くになると見ている
  • 5つ目のコメント: とてもクールだが、24時間365日生産的に活用しないならコストが高い

  • 6つ目のコメント: Tinyboxとのコスト比較が気になる

    • 4090を6基使う場合は$25k、7900XTXを6基使う場合は$15k
    • 電源ユニット、CPU、ストレージ、冷却、組み立て、配送などを含むフルパッケージだ
  • 7つ目のコメント: 似たような構成を地下室に持っている

    • 複数ノードで構成されており、合計16基の3090を使っている
    • 30A 240V回路を設置しなければならなかった
  • 8つ目のコメント: マザーボードにはPCIeスロットが7本あるのに、どうやって8基のGPUを接続するのか気になっている

    • 同じスロットで2基のGPUを使って帯域幅を制限しているのか気になっている
  • 9つ目のコメント: PCIe 4.0 x16スロットが7本ある場合、8枚目のカードをどう接続するのか気になっている

  • 10つ目のコメント: このシリーズを読むのを楽しみにしている

    • オープンソースモデルのコストパフォーマンス比に関するチャートやデータを見つけたい
    • $/ELO値(マシンの構築・運用コストとモデルの平均性能を示す値)を見つけたい