Cloud GPUガイド - AIにはどのGPUをどこで使うべきか?
(gpus.llm-utils.org)- StableDiffusion、Whisper、オープンソースLLM などを使ったAIツールを作るなら、どこかで継続的に実行する必要がある
どのGPUを使うべきか?
Cloud GPUを使うなら:
- Falcon-40B, Falcon-40B-Uncensored, or Falcon-40B-Instruct
- コストを気にせず最高の性能を求めるなら H100 2枚
- コストと性能のバランスを重視するなら RTX 6000 Ada 2枚(A6000 や RTX6000 ではない)
- 安く済ませたいなら A6000 2枚
- MPT-30B
- 最高の性能またはコストパフォーマンス: H100 1枚
- 安価: A100 80GB 1枚
- Stable Diffusion
- 最高の性能: H100 1枚
- コストパフォーマンス: 4090 1枚
- 安価: 3090 1枚
- Whisper
- Stable Diffusion と同じ
- Whisper-Large はより少ないVRAMで実行可能だが、たいていのクラウドにはそのようなカードがない
- 4090/3090 でもよく動き、CPUでも可能
- 大規模LLMをファインチューニングするなら
- H100 クラスターまたは A100 クラスター
- 大規模LLMをトレーニングしたいなら
- 大規模な H100 クラスター
ローカルGPUを使うなら:
- 大規模な H100 クラスター
- ほぼ上と同じだが、LLMのトレーニングとファインチューニングは不可
- ほとんどのLLMには、小さなVRAMで実行可能なバージョンがある(Falcon on 40GB)
モデルはローカルで実行すべきか? クラウドGPUで実行すべきか?
- どちらも合理的な選択
- モデルをクラウドで実行するなら Runpod のテンプレート が最も簡単な選択肢
- 最も簡単なオプションはホスト型インスタンスを使うこと: DreamStudio、RunDiffusion、Playground AI for stable diffusion など
RTX 6000、A6000、6000 Ada の違いは?
3つは完全に別物
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, 2018/08/13 発売)
- RTX A6000 (48 GB VRAM, 2020/10/05 発売)
- RTX 6000 Ada (48 GB VRAM, 2022/12/03 発売)
DGX GH200、GH200、H100?
- 1台の DGX GH200 には 256個の GH200 が含まれる
- 1つの GH200 は 1つの H100 と 1つの Grace CPU を含む
H100 は A100 からの大きなアップグレードか?
- もちろん。速度向上は非常に大きい。H100 は A100 より多くのGPU数へスケール可能
- つまり LLM のトレーニングには H100 を複数使うのがベスト
AMD、Intel、Cerebras は?
- 現時点では Nvidia が最も簡単
どのGPUクラウドを使うべきか?
- 多数の A100/H100 が必要なら: Oracle、FluidStack、Lambda Labs などに問い合わせる
- 数台の A100 が必要なら: FluidStack or Runpod
- H100 1枚が必要なら: FluidStack or Lambda Labs
- 安価な 3090s、4090s、A6000s: Tensordock
- Stable Diffusion の推論だけが必要なら: Salad
- さまざまな種類のGPUが必要なら: Runpod or FluidStack
- テンプレートを使う、または趣味でやるなら: Runpod
- 大手クラウドは価格が高く、複雑
始めるのが最も簡単な GPU Cloud
- RunPodでテンプレートを使用
- RunPod の pod はフル機能のVMではなく、ホストマシン上のDockerコンテナである点に注意
どれくらいの VRAM、システムRAM、何個の vCPU が必要か?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: 16GB+ 以上が望ましい
- Whisper: 12GB+。(OpenAI 版を使うならこの程度、コミュニティ版なら CPU でも可能)
- システムRAM
- VRAM の 1〜2倍
- vCPUs
- 8〜16 vCPU あれば、大規模なGPUワークロードでない限り十分
- ディスク容量
- ユースケースによって異なる。よく分からなければ 100GB で始めて、ユースケースに合うか確認すること
6件のコメント
Runpodを使っていますが、安くて使いやすくてとても良いです! 良い情報をありがとうございます。
とても良い情報ですね!
些細ですが、下のほうで2つほどセクションが抜けているようだったので、追加してみました。 :)
SXMやPCIe、NVLinkは必要?
InfiniBandは?
良い記事をありがとうございます!
関係者にとっては本当に貴重な情報ですね
おお、とても役に立つ資料ですね。