NVIDIA、H200 Tensor Core GPUをリリース

(nvidia.com)

4 ポイント投稿者 GN⁺ 2023-11-15 | 1件のコメント | WhatsAppで共有

世界で最も強力なGPU

NVIDIA H200 Tensor Core GPUは、ゲームチェンジャーとなる性能とメモリ性能により、生成AIと高性能コンピューティング（HPC）ワークロードを加速する。
HBM3eを搭載した最初のGPUとして、H200は生成AIと大規模言語モデル（LLM）の高速化、および科学技術計算向けHPCワークロードを前進させる。

NVIDIA Hopperアーキテクチャベースの性能向上

NVIDIA Hopper™アーキテクチャをベースにしたNVIDIA HGX H200は、大規模データ処理向けの先進メモリを備えたNVIDIA H200 Tensor Core GPUを特徴とする。

性能向上を体感

Llama2 70Bの推論は1.9倍高速化し、GPT-3 175Bの推論は1.6倍高速化。
高性能コンピューティングはCPU比で最大110倍高速化。

より高い性能と、より大容量で高速なメモリ

NVIDIA H200は141GBのHBM3eメモリと4.8TB/sのメモリ帯域幅を提供し、生成AIとLLMを加速し、エネルギー効率を高め、総保有コストを低減する。

高性能なLLM推論でインサイトを得る

AI推論アクセラレータは、大規模なユーザーベースに展開される際、最高のスループットと最低のTCOを提供する必要がある。
H200は、LLM処理時にH100 GPUと比べて最大2倍高速な推論速度を提供する。

高性能コンピューティングを加速

メモリ帯域幅はHPCアプリケーションにとって重要であり、より高速なデータ転送を可能にして、複雑な処理のボトルネックを減らす。
H200の高いメモリ帯域幅は、データアクセスと操作を効率化し、CPU比で最大110倍高速な結果の導出を可能にする。

エネルギーとTCOを削減

H200の導入により、エネルギー効率とTCOは新たな水準に到達する。
同じ電力プロファイル内で優れた性能を提供し、より環境に優しく経済的な利点をもたらす。

性能

NVIDIA Hopperアーキテクチャは前例のない性能向上を提供し、H100に対する継続的なソフトウェア改善を通じて、性能基準を引き続き押し上げている。
H200の導入はさらなる性能向上へとつながり、対応ソフトウェアへの継続的な改善によって、現在および将来の性能リーダーシップを確かなものにする。

エンタープライズ対応完了: AIソフトウェアが開発と導入を簡素化

NVIDIA AI Enterpriseと組み合わせたNVIDIA H200は、AI対応プラットフォームの構築を簡素化し、生成AI、コンピュータビジョン、音声AIなどのAI開発と導入を加速する。
これらはエンタープライズグレードのセキュリティ、管理性、信頼性、サポートを提供し、より迅速に実行可能なインサイトを得て、より早く具体的なビジネス価値を実現できるようにする。

NVIDIA H200 Tensor Core GPUの仕様

フォームファクタ: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1,979 TFLOPS
FP16 Tensor Core: 1,979 TFLOPS
FP8 Tensor Core: 3,958 TFLOPS
INT8 Tensor Core: 3,958 TFLOPS
GPUメモリ: 141GB
GPUメモリ帯域幅: 4.8TB/s
デコーダ: 7 NVDEC
最大熱設計電力（TDP）: 最大700W（設定可能）
マルチインスタンスGPU: 最大7 MIGs @16.5GBそれぞれ

GN⁺の意見

この記事で最も重要なのは、NVIDIAがH200 Tensor Core GPUを通じて、AIおよびHPCワークロード向けに世界で最も強力なGPUを披露した点である。このGPUは、生成AIと大規模言語モデルの高速化だけでなく、科学技術計算向けHPCワークロードの発展にも寄与すると期待される。こうした技術的進歩は、初級ソフトウェアエンジニアにとっても興味深く、彼らが関わるプロジェクトに革新的な変化をもたらす可能性を持つ。H200の先進的なメモリと処理能力は、より高速な演算、向上したエネルギー効率、そして低いTCOを可能にし、AIと科学研究分野の発展を加速させると見込まれる。

1件のコメント

GN⁺ 2023-11-15

Hacker Newsの意見

H200 GPUのダイはH100と同一だが、より高速な24GBメモリスタックを全面的に使用している。

NVIDIAのH200アクセラレータはH100 141GBと同じシリコンをベースにしているが、NvidiaのWebサイトが示唆しているような新しいシリコンではない。
今後数年以内に、他のチップメーカーがAI分野でNVIDIAに追いつく、あるいは追い越す可能性があるのかという疑問。

NVIDIAのAI分野におけるリーダーシップと専門性が、今後数年以内に他のチップメーカーから挑戦を受けるのか、それとも彼らの先行は揺るがないのかという問いかけ。
NVIDIAの短期間での性能向上は印象的だが、この分野には他の競合の存在が必要だと感じる。

NVIDIAが短期間で達成した性能向上への驚きとともに、この市場にはAMDのような別の競合の登場が必要だという期待。
推論で使われる指標についての質問と、学習でも同様の性能向上を期待すべきなのかという疑問。

AIモデルの推論段階に関する性能指標が主に語られているが、モデルの学習段階でも同様の性能向上が見られるのかという質問。
同じ年に発売されるB100と比べたH200の立ち位置への疑問。

B100が同年に発売され、2倍高い性能を提供するのであれば、H200の役割や価格はどうなるのかという疑問。
H100 GPUの価格への衝撃と、個人的な実験やハッカソン用途で使いたい場合のコストに関する質問。

個人的な実験やハッカソンのためにH100 GPUを使おうとした際、予想外に高い価格に驚き、H200の価格はどうなるのかと問う声。
モバイル機器では、Webページのクッキーバナーや広告バナーのせいで、実際に見える画面領域が非常に限られている。

モバイル環境では、クッキーバナーと広告バナーのせいで、Webページの実際の可視領域が4分の1しかないという問題提起。
「GPU」という用語についての説明がなく、内蔵のビデオ出力機能もまったくない。

GPUがビデオ出力機能を内蔵していないという事実への言及。
写真に何が写っているのか説明してほしいという要望と、それがまるで『ブレードランナー』に出てくる都市や建物のように見えるという意見。

写真内の構成要素が何なのか分かりにくいため説明を求める声と、それが『ブレードランナー』の都市や建物に似ているという印象。
推論速度の限界はメモリ帯域幅の問題なのか、それとも計算能力の問題なのかという質問。

AIモデルの推論速度を制限している要因は、メモリ帯域幅なのか、それとも計算処理能力なのかという疑問。