37 ポイント 投稿者 xguru 2023-08-23 | 6件のコメント | WhatsAppで共有
  • StableDiffusion、Whisper、オープンソースLLM などを使ったAIツールを作るなら、どこかで継続的に実行する必要がある

どのGPUを使うべきか?

Cloud GPUを使うなら:

  • Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
    • コストを気にせず最高の性能を求めるなら H100 2枚
    • コストと性能のバランスを重視するなら RTX 6000 Ada 2枚(A6000 や RTX6000 ではない)
    • 安く済ませたいなら A6000 2枚
  • MPT-30B
    • 最高の性能またはコストパフォーマンス: H100 1枚
    • 安価: A100 80GB 1枚
  • Stable Diffusion
    • 最高の性能: H100 1枚
    • コストパフォーマンス: 4090 1枚
    • 安価: 3090 1枚
  • Whisper
    • Stable Diffusion と同じ
    • Whisper-Large はより少ないVRAMで実行可能だが、たいていのクラウドにはそのようなカードがない
    • 4090/3090 でもよく動き、CPUでも可能
  • 大規模LLMをファインチューニングするなら
    • H100 クラスターまたは A100 クラスター
  • 大規模LLMをトレーニングしたいなら
    • 大規模な H100 クラスター
      ローカルGPUを使うなら:
  • ほぼ上と同じだが、LLMのトレーニングとファインチューニングは不可
  • ほとんどのLLMには、小さなVRAMで実行可能なバージョンがある(Falcon on 40GB)

モデルはローカルで実行すべきか? クラウドGPUで実行すべきか?

  • どちらも合理的な選択
  • モデルをクラウドで実行するなら Runpod のテンプレート が最も簡単な選択肢
  • 最も簡単なオプションはホスト型インスタンスを使うこと: DreamStudio、RunDiffusion、Playground AI for stable diffusion など

RTX 6000、A6000、6000 Ada の違いは?

3つは完全に別物

  • RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 発売)
  • RTX A6000 (48 GB VRAM, 2020/10/05 発売)
  • RTX 6000 Ada (48 GB VRAM, 2022/12/03 発売)

DGX GH200、GH200、H100?

  • 1台の DGX GH200 には 256個の GH200 が含まれる
  • 1つの GH200 は 1つの H100 と 1つの Grace CPU を含む

H100 は A100 からの大きなアップグレードか?

  • もちろん。速度向上は非常に大きい。H100 は A100 より多くのGPU数へスケール可能
  • つまり LLM のトレーニングには H100 を複数使うのがベスト

AMD、Intel、Cerebras は?

  • 現時点では Nvidia が最も簡単

どのGPUクラウドを使うべきか?

  • 多数の A100/H100 が必要なら: Oracle、FluidStack、Lambda Labs などに問い合わせる
  • 数台の A100 が必要なら: FluidStack or Runpod
  • H100 1枚が必要なら: FluidStack or Lambda Labs
  • 安価な 3090s、4090s、A6000s: Tensordock
  • Stable Diffusion の推論だけが必要なら: Salad
  • さまざまな種類のGPUが必要なら: Runpod or FluidStack
  • テンプレートを使う、または趣味でやるなら: Runpod
  • 大手クラウドは価格が高く、複雑

始めるのが最も簡単な GPU Cloud

どれくらいの VRAM、システムRAM、何個の vCPU が必要か?

  • VRAM (Video RAM / GPU RAM)
    • Falcon-40B: 85-100GB
    • MPT-30B: 80GB
    • Stable Diffusion: 16GB+ 以上が望ましい
    • Whisper: 12GB+。(OpenAI 版を使うならこの程度、コミュニティ版なら CPU でも可能)
  • システムRAM
    • VRAM の 1〜2倍
  • vCPUs
    • 8〜16 vCPU あれば、大規模なGPUワークロードでない限り十分
  • ディスク容量
  • ユースケースによって異なる。よく分からなければ 100GB で始めて、ユースケースに合うか確認すること

6件のコメント

 
wlsdk318 2024-01-30

Runpodを使っていますが、安くて使いやすくてとても良いです! 良い情報をありがとうございます。

 
geekbini 2023-08-24

とても良い情報ですね!

 
ninebow 2023-08-24

些細ですが、下のほうで2つほどセクションが抜けているようだったので、追加してみました。 :)


SXMやPCIe、NVLinkは必要?

InfiniBandは?

  • 1〜2個のGPUを使う場合は不要。数千台規模のクラスターを使う場合は必要。
 
ninebow 2023-08-24

良い記事をありがとうございます!

 
nicewook 2023-08-23

関係者にとっては本当に貴重な情報ですね

 
ragingwind 2023-08-23

おお、とても役に立つ資料ですね。