Google DeepMind論文のコストを計算してみる

(152334H.github.io)

4 ポイント投稿者 GN⁺ 2024-07-31 | 1件のコメント | WhatsAppで共有

「arXivプレプリントに約 $10M（130億ウォン）を投じる方法」
最近、DeepMind（GDM）が「Scaling Exponents Across Parameterizations and Optimizers」という優れた論文を発表
- この論文では 10,000 回以上の LLM トレーニング実行を行い、さまざまな環境で最適なハイパーパラメータを導出している
論文を読んだ後、実験結果をすべて集計し、論文を再現するのに必要な総演算コストの計算を試みた
結果として、必要な総 FLOPS は 5.42e24、コストは $12.9M（178億ウォン）（$3/H100/時間で計測した場合）
- 大きな枠で見ると、5.42e24 は「そこまで大きくない」規模
- これは Llama 3 に使われた計算量の 15% にも満たず、100,000 基の H100 クラスターがあればこれらすべての実験をわずか 2 日で実行できる

H100 の価値に関する補足説明

Google DeepMind 発の論文なので、ほぼ間違いなく TPU で実験を進めたはず
論文に int8 使用への言及がないため、おそらく bfloat16 精度を使ったと推定される
H100-SXM は 989.40TFLOP/s の 16 ビット Tensor 演算性能を持つ
最近の PyTorch ブログと torchtitan では、H100 の MFU を 40% 前後と報告している
H100 ノードのコストは 1 時間あたり $3 程度と見積もられる（利用先によって多少異なるため平均値）

1件のコメント

parkindani 2024-08-01

価格よりも、使われたエネルギーの総量のほうが気になりますね。