Intel Gaudi 2チップ、Diffusion TransformerベンチマークでNvidia H100を上回る

xguru · 2024-03-12T10:46:01+09:00

「Behind the Compute」シリーズは、Stability AIの取り組みの記録であり、他者が生成AIの力を活用できるよう洞察を提供するブログ記事シリーズ今回は、さまざまなコンピューティングソリューションの性能ベンチマークと利点をさらに深く掘り下げる性能分析 2つのモデルを学習させて性能分析を行い、そのうちの1つは大きな期待を集めるStable Diffusion 3 Intel Gaudi 2アクセラレータとNvidiaのA100およびH100を比較して学習速度を測定これらは、スタートアップや開発者が大規模言語モデルを学習させる際に最も一般的に選ぶ選択肢モデル 1: Stable Diffusion 3 Stable Diffusion 3は、まもなく初期プレビュー段階に入る予定の、最も高性能なテキスト画像モデル Stable Diffusion 3の公開版は、800Mから8Bパラメータの範囲で提供される予定 2Bパラメータ版を使った分析では、期待を上回る結果を示した 2B Multimodal Diffusion Transformer（MMDiT）アーキテクチャモデルの学習スループットを測定し、d=24、BFloat16混合精度、最適化されたアテンション（A100ではxFormers、Intel GaudiではFusedSDPA）を使用このモデル版をMMDiT-ps2-d24と呼ぶ 2ノード、合計16基のアクセラレータ（Gaudi/GPU）による学習ベンチマーク結果では、Gaudi 2システムはアクセラレータ当たりのバッチサイズを16に維持しつつ、毎秒927枚の学習画像を処理 - H100-80GBより1.5倍高速 Gaudi 2の96GB高帯域幅メモリ（HBM2E）を活用してアクセラレータ当たりのバッチサイズを32に増やし、学習速度を毎秒1,254枚の画像へさらに向上 32台のGaudi 2ノード（合計256基のアクセラレータ）へ分散学習を拡張しても、引き続き非常に競争力のある性能を記録この構成で、Gaudi 2クラスターはA100-80GB GPUと比べて毎秒3倍以上多くの画像を処理。A100が非常に最適化されたソフトウェアスタックを持つにもかかわらず、これは印象的 Stable Diffusion 3の8Bパラメータモデルに対する推論テストでは、Gaudi 2チップは標準のPyTorchを使ってNvidia A100チップと同等の推論速度を提供ただし、TensorRT最適化によりA100チップはGaudi 2より40%高速に画像を生成さらなる最適化によって、Gaudi 2はこのモデルで近いうちにA100を上回ると予想標準のPyTorchを使った以前のテストでは、Gaudi 2は1024x1024画像を30ステップでわずか3.2秒で生成したのに対し、A100はPyTorchで3.6秒、TensorRTで2.7秒を要した Gaudi 2のより大きなメモリ、より高速なインターコネクト、その他の設計上の考慮により、次世代メディアモデルを支えるDiffusion Transformerアーキテクチャの実行で競争力を持つモデル 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70BはLLaMA 2 70Bのファインチューニング版で、特定のベンチマークでChatGPT 3.5を上回った最初のオープンモデルであるStable Beluga 2をベースにしている 256基のGaudi 2アクセラレータでこの学習ベンチマークを実施し、追加の最適化なしでPyTorchコードをそのまま実行して、平均総スループット116,777トークン/秒を測定これはFP16データ型、グローバルバッチサイズ1024、勾配蓄積ステップ2、マイクロバッチサイズ2を使用 Gaudi 2で70B言語モデルの推論テストを行ったところ、入力トークン長128、出力トークン長2048を用いて、アクセラレータ当たり673トークン/秒を生成 TensorRT-LLMと比較すると、Gaudi 2はA100の525トークン/秒より28%高速 FP8でさらに高い速度向上を見込むコンピューティングソリューションへの需要私たちのような企業では、ますます強力で効率的なコンピューティングソリューションへの需要が高まっている私たちの発見は、Gaudi 2のような代替手段の必要性を強調している。これは他の7nmチップより優れた性能を提供するだけでなく、価格性能比、手頃な価格、短いリードタイムといった市場の重要な要件にも対応するコンピューティングの選択肢が広がることで参加とイノベーションが拡大し、高度なAI技術をより多くの人にとって利用しやすくする

(stability.ai)

6 ポイント投稿者 xguru 2024-03-12 | 1件のコメント | WhatsAppで共有

「Behind the Compute」シリーズは、Stability AIの取り組みの記録であり、他者が生成AIの力を活用できるよう洞察を提供するブログ記事シリーズ
今回は、さまざまなコンピューティングソリューションの性能ベンチマークと利点をさらに深く掘り下げる

性能分析

2つのモデルを学習させて性能分析を行い、そのうちの1つは大きな期待を集めるStable Diffusion 3
Intel Gaudi 2アクセラレータとNvidiaのA100およびH100を比較して学習速度を測定
これらは、スタートアップや開発者が大規模言語モデルを学習させる際に最も一般的に選ぶ選択肢

モデル 1: Stable Diffusion 3

Stable Diffusion 3は、まもなく初期プレビュー段階に入る予定の、最も高性能なテキスト画像モデル
Stable Diffusion 3の公開版は、800Mから8Bパラメータの範囲で提供される予定
2Bパラメータ版を使った分析では、期待を上回る結果を示した
2B Multimodal Diffusion Transformer（MMDiT）アーキテクチャモデルの学習スループットを測定し、d=24、BFloat16混合精度、最適化されたアテンション（A100ではxFormers、Intel GaudiではFusedSDPA）を使用
このモデル版をMMDiT-ps2-d24と呼ぶ
2ノード、合計16基のアクセラレータ（Gaudi/GPU）による学習ベンチマーク結果では、Gaudi 2システムはアクセラレータ当たりのバッチサイズを16に維持しつつ、毎秒927枚の学習画像を処理 - H100-80GBより1.5倍高速
Gaudi 2の96GB高帯域幅メモリ（HBM2E）を活用してアクセラレータ当たりのバッチサイズを32に増やし、学習速度を毎秒1,254枚の画像へさらに向上
32台のGaudi 2ノード（合計256基のアクセラレータ）へ分散学習を拡張しても、引き続き非常に競争力のある性能を記録
この構成で、Gaudi 2クラスターはA100-80GB GPUと比べて毎秒3倍以上多くの画像を処理。A100が非常に最適化されたソフトウェアスタックを持つにもかかわらず、これは印象的
Stable Diffusion 3の8Bパラメータモデルに対する推論テストでは、Gaudi 2チップは標準のPyTorchを使ってNvidia A100チップと同等の推論速度を提供
ただし、TensorRT最適化によりA100チップはGaudi 2より40%高速に画像を生成
さらなる最適化によって、Gaudi 2はこのモデルで近いうちにA100を上回ると予想
標準のPyTorchを使った以前のテストでは、Gaudi 2は1024x1024画像を30ステップでわずか3.2秒で生成したのに対し、A100はPyTorchで3.6秒、TensorRTで2.7秒を要した
Gaudi 2のより大きなメモリ、より高速なインターコネクト、その他の設計上の考慮により、次世代メディアモデルを支えるDiffusion Transformerアーキテクチャの実行で競争力を持つ

モデル 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70BはLLaMA 2 70Bのファインチューニング版で、特定のベンチマークでChatGPT 3.5を上回った最初のオープンモデルであるStable Beluga 2をベースにしている
256基のGaudi 2アクセラレータでこの学習ベンチマークを実施し、追加の最適化なしでPyTorchコードをそのまま実行して、平均総スループット116,777トークン/秒を測定
これはFP16データ型、グローバルバッチサイズ1024、勾配蓄積ステップ2、マイクロバッチサイズ2を使用
Gaudi 2で70B言語モデルの推論テストを行ったところ、入力トークン長128、出力トークン長2048を用いて、アクセラレータ当たり673トークン/秒を生成
TensorRT-LLMと比較すると、Gaudi 2はA100の525トークン/秒より28%高速
FP8でさらに高い速度向上を見込む

コンピューティングソリューションへの需要

私たちのような企業では、ますます強力で効率的なコンピューティングソリューションへの需要が高まっている
私たちの発見は、Gaudi 2のような代替手段の必要性を強調している。これは他の7nmチップより優れた性能を提供するだけでなく、価格性能比、手頃な価格、短いリードタイムといった市場の重要な要件にも対応する
コンピューティングの選択肢が広がることで参加とイノベーションが拡大し、高度なAI技術をより多くの人にとって利用しやすくする

1件のコメント

xguru 2024-03-12

Hacker Newsの意見

TPU が A100s に楽に勝つという事実は興味深い。TPU を使って Stable Diffusion のファインチューニングを提供している dreamlook.ai では、人々が提供速度とコストに驚いている。しかし大きな秘密があるわけではなく、単にジョブ単位でより高速かつ安価なハードウェアを使っているだけだ。
新しいハードウェアでモデル学習の競争を促進するのは良いことだが、これらのマシンの利用可能性は非常に限られている。主要クラウドプロバイダーは Gaudi2 VM を時間単位で貸し出しておらず、Intel 自身のサイトも 40k USD 超の 8x GPU サーバーを購入するよう案内している。現時点では、ソフトウェアスタックと可用性の面で依然として Nvidia が優位だが、今年末までには変化が始まるかもしれない。
NVIDIA は H100 でほぼ 92% の利益率を確保している。より多くのチップ企業が「ML アクセラレータ」分野に参入していないのは驚きだ。
ハードウェア指標が 3 倍良くなっていないのに 3 倍高速になり得る理由についての分析があれば、実際に有用で洞察に富んだ情報になるだろう。そうでなければ、単なる宣伝に過ぎない。
H100 はほぼ 1 年前に発売されているので、Intel が昨年モデルと競争する準備ができたのであれば悪くない。CUDA が非常に重要な要素であり、ハードウェアとソフトウェアの両方がともに成熟するのに 10 年かかることを忘れてはならない。
H100 はすでにおよそ 1 年にわたって大量出荷されている。Gaudi2 も同程度の規模で入手可能なのだろうか。NVIDIA が同時期の競合製品に対して明確なリードを失うまでは、NVIDIA を決して軽視すべきではない。
Gaudi と Ponte Vecchio の両方が存在する理由については、Intel AXG の社員を含め、誰も納得のいく答えを示せなかった。Intel は 1 つの製品ラインに集中したほうが成功の可能性が高まるのではないか。
AI 科学者たちが最近どのように仕事をしているのか気になる。本当に Cudakernels をハックしているのか、それとも pytorch のような高水準ツールキットでモデルをつないでいるのか。後者だとすれば、pytorch がさまざまなハードウェア向けに最適化されたバックエンドを提供するなら、CUDA は本当に大きな障壁なのだろうか?