- 「arXivプレプリントに約 $10M(130億ウォン)を投じる方法」
- 最近、DeepMind(GDM)が「Scaling Exponents Across Parameterizations and Optimizers」という優れた論文を発表
- この論文では 10,000 回以上の LLM トレーニング実行を行い、さまざまな環境で最適なハイパーパラメータを導出している
- 論文を読んだ後、実験結果をすべて集計し、論文を再現するのに必要な総演算コストの計算を試みた
- 結果として、必要な総 FLOPS は 5.42e24、コストは $12.9M(178億ウォン)($3/H100/時間で計測した場合)
- 大きな枠で見ると、5.42e24 は「そこまで大きくない」規模
- これは Llama 3 に使われた計算量の 15% にも満たず、100,000 基の H100 クラスターがあればこれらすべての実験をわずか 2 日で実行できる
H100 の価値に関する補足説明
- Google DeepMind 発の論文なので、ほぼ間違いなく TPU で実験を進めたはず
- 論文に int8 使用への言及がないため、おそらく bfloat16 精度を使ったと推定される
- H100-SXM は 989.40TFLOP/s の 16 ビット Tensor 演算性能を持つ
- 最近の PyTorch ブログと torchtitan では、H100 の MFU を 40% 前後と報告している
- H100 ノードのコストは 1 時間あたり $3 程度と見積もられる(利用先によって多少異なるため平均値)
1件のコメント
価格よりも、使われたエネルギーの総量のほうが気になりますね。