Cloud GPUガイド - AIにはどのGPUをどこで使うべきか？

xguru · 2023-08-23T11:04:02+09:00

StableDiffusion、Whisper、オープンソースLLM などを使ったAIツールを作るなら、どこかで継続的に実行する必要があるどのGPUを使うべきか？ Cloud GPUを使うなら: Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct コストを気にせず最高の性能を求めるなら H100 2枚コストと性能のバランスを重視するなら RTX 6000 Ada 2枚（A6000 や RTX6000 ではない）安く済ませたいなら A6000 2枚 MPT-30B 最高の性能またはコストパフォーマンス: H100 1枚安価: A100 80GB 1枚 Stable Diffusion 最高の性能: H100 1枚コストパフォーマンス: 4090 1枚安価: 3090 1枚 Whisper Stable Diffusion と同じ Whisper-Large はより少ないVRAMで実行可能だが、たいていのクラウドにはそのようなカードがない 4090/3090 でもよく動き、CPUでも可能大規模LLMをファインチューニングするなら H100 クラスターまたは A100 クラスター大規模LLMをトレーニングしたいなら大規模な H100 クラスターローカルGPUを使うなら: ほぼ上と同じだが、LLMのトレーニングとファインチューニングは不可ほとんどのLLMには、小さなVRAMで実行可能なバージョンがある（Falcon on 40GB）モデルはローカルで実行すべきか？クラウドGPUで実行すべきか？どちらも合理的な選択モデルをクラウドで実行するなら Runpod のテンプレートが最も簡単な選択肢最も簡単なオプションはホスト型インスタンスを使うこと: DreamStudio、RunDiffusion、Playground AI for stable diffusion など RTX 6000、A6000、6000 Ada の違いは？ 3つは完全に別物 RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 発売) RTX A6000 (48 GB VRAM, 2020/10/05 発売) RTX 6000 Ada (48 GB VRAM, 2022/12/03 発売) DGX GH200、GH200、H100? 1台の DGX GH200 には 256個の GH200 が含まれる 1つの GH200 は 1つの H100 と 1つの Grace CPU を含む H100 は A100 からの大きなアップグレードか？もちろん。速度向上は非常に大きい。H100 は A100 より多くのGPU数へスケール可能つまり LLM のトレーニングには H100 を複数使うのがベスト AMD、Intel、Cerebras は？現時点では Nvidia が最も簡単どのGPUクラウドを使うべきか？多数の A100/H100 が必要なら: Oracle、FluidStack、Lambda Labs などに問い合わせる数台の A100 が必要なら: FluidStack or Runpod H100 1枚が必要なら: FluidStack or Lambda Labs 安価な 3090s、4090s、A6000s: Tensordock Stable Diffusion の推論だけが必要なら: Salad さまざまな種類のGPUが必要なら: Runpod or FluidStack テンプレートを使う、または趣味でやるなら: Runpod 大手クラウドは価格が高く、複雑始めるのが最も簡単な GPU Cloud RunPodでテンプレートを使用 RunPod の pod はフル機能のVMではなく、ホストマシン上のDockerコンテナである点に注意どれくらいの VRAM、システムRAM、何個の vCPU が必要か？ VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: 16GB+ 以上が望ましい Whisper: 12GB+。（OpenAI 版を使うならこの程度、コミュニティ版なら CPU でも可能）システムRAM VRAM の 1〜2倍 vCPUs 8〜16 vCPU あれば、大規模なGPUワークロードでない限り十分ディスク容量ユースケースによって異なる。よく分からなければ 100GB で始めて、ユースケースに合うか確認すること

(gpus.llm-utils.org)

37 ポイント投稿者 xguru 2023-08-23 | 6件のコメント | WhatsAppで共有

StableDiffusion、Whisper、オープンソースLLM などを使ったAIツールを作るなら、どこかで継続的に実行する必要がある

どのGPUを使うべきか？

Cloud GPUを使うなら:

Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- コストを気にせず最高の性能を求めるなら H100 2枚
- コストと性能のバランスを重視するなら RTX 6000 Ada 2枚（A6000 や RTX6000 ではない）
- 安く済ませたいなら A6000 2枚
MPT-30B
- 最高の性能またはコストパフォーマンス: H100 1枚
- 安価: A100 80GB 1枚
Stable Diffusion
- 最高の性能: H100 1枚
- コストパフォーマンス: 4090 1枚
- 安価: 3090 1枚
Whisper
- Stable Diffusion と同じ
- Whisper-Large はより少ないVRAMで実行可能だが、たいていのクラウドにはそのようなカードがない
- 4090/3090 でもよく動き、CPUでも可能
大規模LLMをファインチューニングするなら
- H100 クラスターまたは A100 クラスター
大規模LLMをトレーニングしたいなら
- 大規模な H100 クラスター
  ローカルGPUを使うなら:
ほぼ上と同じだが、LLMのトレーニングとファインチューニングは不可
ほとんどのLLMには、小さなVRAMで実行可能なバージョンがある（Falcon on 40GB）

モデルはローカルで実行すべきか？クラウドGPUで実行すべきか？

どちらも合理的な選択
モデルをクラウドで実行するなら Runpod のテンプレートが最も簡単な選択肢
最も簡単なオプションはホスト型インスタンスを使うこと: DreamStudio、RunDiffusion、Playground AI for stable diffusion など

RTX 6000、A6000、6000 Ada の違いは？

3つは完全に別物

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 発売)
RTX A6000 (48 GB VRAM, 2020/10/05 発売)
RTX 6000 Ada (48 GB VRAM, 2022/12/03 発売)

DGX GH200、GH200、H100?

1台の DGX GH200 には 256個の GH200 が含まれる
1つの GH200 は 1つの H100 と 1つの Grace CPU を含む

H100 は A100 からの大きなアップグレードか？

もちろん。速度向上は非常に大きい。H100 は A100 より多くのGPU数へスケール可能
つまり LLM のトレーニングには H100 を複数使うのがベスト

AMD、Intel、Cerebras は？

現時点では Nvidia が最も簡単

どのGPUクラウドを使うべきか？

多数の A100/H100 が必要なら: Oracle、FluidStack、Lambda Labs などに問い合わせる
数台の A100 が必要なら: FluidStack or Runpod
H100 1枚が必要なら: FluidStack or Lambda Labs
安価な 3090s、4090s、A6000s: Tensordock
Stable Diffusion の推論だけが必要なら: Salad
さまざまな種類のGPUが必要なら: Runpod or FluidStack
テンプレートを使う、または趣味でやるなら: Runpod
大手クラウドは価格が高く、複雑

始めるのが最も簡単な GPU Cloud

RunPodでテンプレートを使用
RunPod の pod はフル機能のVMではなく、ホストマシン上のDockerコンテナである点に注意

どれくらいの VRAM、システムRAM、何個の vCPU が必要か？

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ 以上が望ましい
- Whisper: 12GB+。（OpenAI 版を使うならこの程度、コミュニティ版なら CPU でも可能）
システムRAM
- VRAM の 1〜2倍
vCPUs
- 8〜16 vCPU あれば、大規模なGPUワークロードでない限り十分
ディスク容量
ユースケースによって異なる。よく分からなければ 100GB で始めて、ユースケースに合うか確認すること

6件のコメント

wlsdk318 2024-01-30

Runpodを使っていますが、安くて使いやすくてとても良いです！良い情報をありがとうございます。

geekbini 2023-08-24

とても良い情報ですね！

ninebow 2023-08-24

些細ですが、下のほうで2つほどセクションが抜けているようだったので、追加してみました。 :)

SXMやPCIe、NVLinkは必要？

自信が持てないなら、ひとまず重要ではないと考えてよい
さらに詳しく知るには: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

InfiniBandは？

1〜2個のGPUを使う場合は不要。数千台規模のクラスターを使う場合は必要。

ninebow 2023-08-24

良い記事をありがとうございます！

nicewook 2023-08-23

関係者にとっては本当に貴重な情報ですね

ragingwind 2023-08-23

おお、とても役に立つ資料ですね。