- 「Behind the Compute」シリーズは、Stability AIの取り組みの記録であり、他者が生成AIの力を活用できるよう洞察を提供するブログ記事シリーズ
- 今回は、さまざまなコンピューティングソリューションの性能ベンチマークと利点をさらに深く掘り下げる
性能分析
- 2つのモデルを学習させて性能分析を行い、そのうちの1つは大きな期待を集めるStable Diffusion 3
- Intel Gaudi 2アクセラレータとNvidiaのA100およびH100を比較して学習速度を測定
- これらは、スタートアップや開発者が大規模言語モデルを学習させる際に最も一般的に選ぶ選択肢
モデル 1: Stable Diffusion 3
- Stable Diffusion 3は、まもなく初期プレビュー段階に入る予定の、最も高性能なテキスト画像モデル
- Stable Diffusion 3の公開版は、800Mから8Bパラメータの範囲で提供される予定
- 2Bパラメータ版を使った分析では、期待を上回る結果を示した
- 2B Multimodal Diffusion Transformer(MMDiT)アーキテクチャモデルの学習スループットを測定し、d=24、BFloat16混合精度、最適化されたアテンション(A100ではxFormers、Intel GaudiではFusedSDPA)を使用
- このモデル版をMMDiT-ps2-d24と呼ぶ
- 2ノード、合計16基のアクセラレータ(Gaudi/GPU)による学習ベンチマーク結果では、Gaudi 2システムはアクセラレータ当たりのバッチサイズを16に維持しつつ、毎秒927枚の学習画像を処理 - H100-80GBより1.5倍高速
- Gaudi 2の96GB高帯域幅メモリ(HBM2E)を活用してアクセラレータ当たりのバッチサイズを32に増やし、学習速度を毎秒1,254枚の画像へさらに向上
- 32台のGaudi 2ノード(合計256基のアクセラレータ)へ分散学習を拡張しても、引き続き非常に競争力のある性能を記録
- この構成で、Gaudi 2クラスターはA100-80GB GPUと比べて毎秒3倍以上多くの画像を処理。A100が非常に最適化されたソフトウェアスタックを持つにもかかわらず、これは印象的
- Stable Diffusion 3の8Bパラメータモデルに対する推論テストでは、Gaudi 2チップは標準のPyTorchを使ってNvidia A100チップと同等の推論速度を提供
- ただし、TensorRT最適化によりA100チップはGaudi 2より40%高速に画像を生成
- さらなる最適化によって、Gaudi 2はこのモデルで近いうちにA100を上回ると予想
- 標準のPyTorchを使った以前のテストでは、Gaudi 2は1024x1024画像を30ステップでわずか3.2秒で生成したのに対し、A100はPyTorchで3.6秒、TensorRTで2.7秒を要した
- Gaudi 2のより大きなメモリ、より高速なインターコネクト、その他の設計上の考慮により、次世代メディアモデルを支えるDiffusion Transformerアーキテクチャの実行で競争力を持つ
モデル 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70BはLLaMA 2 70Bのファインチューニング版で、特定のベンチマークでChatGPT 3.5を上回った最初のオープンモデルであるStable Beluga 2をベースにしている
- 256基のGaudi 2アクセラレータでこの学習ベンチマークを実施し、追加の最適化なしでPyTorchコードをそのまま実行して、平均総スループット116,777トークン/秒を測定
- これはFP16データ型、グローバルバッチサイズ1024、勾配蓄積ステップ2、マイクロバッチサイズ2を使用
- Gaudi 2で70B言語モデルの推論テストを行ったところ、入力トークン長128、出力トークン長2048を用いて、アクセラレータ当たり673トークン/秒を生成
- TensorRT-LLMと比較すると、Gaudi 2はA100の525トークン/秒より28%高速
- FP8でさらに高い速度向上を見込む
コンピューティングソリューションへの需要
- 私たちのような企業では、ますます強力で効率的なコンピューティングソリューションへの需要が高まっている
- 私たちの発見は、Gaudi 2のような代替手段の必要性を強調している。これは他の7nmチップより優れた性能を提供するだけでなく、価格性能比、手頃な価格、短いリードタイムといった市場の重要な要件にも対応する
- コンピューティングの選択肢が広がることで参加とイノベーションが拡大し、高度なAI技術をより多くの人にとって利用しやすくする
1件のコメント
Hacker Newsの意見