4 ポイント 投稿者 GN⁺ 2024-07-31 | 1件のコメント | WhatsAppで共有
  • 「arXivプレプリントに約 $10M(130億ウォン)を投じる方法」
  • 最近、DeepMind(GDM)が「Scaling Exponents Across Parameterizations and Optimizers」という優れた論文を発表
    • この論文では 10,000 回以上の LLM トレーニング実行を行い、さまざまな環境で最適なハイパーパラメータを導出している
  • 論文を読んだ後、実験結果をすべて集計し、論文を再現するのに必要な総演算コストの計算を試みた
  • 結果として、必要な総 FLOPS は 5.42e24、コストは $12.9M(178億ウォン)($3/H100/時間で計測した場合)
    • 大きな枠で見ると、5.42e24 は「そこまで大きくない」規模
    • これは Llama 3 に使われた計算量の 15% にも満たず、100,000 基の H100 クラスターがあればこれらすべての実験をわずか 2 日で実行できる

H100 の価値に関する補足説明

  • Google DeepMind 発の論文なので、ほぼ間違いなく TPU で実験を進めたはず
  • 論文に int8 使用への言及がないため、おそらく bfloat16 精度を使ったと推定される
  • H100-SXM は 989.40TFLOP/s の 16 ビット Tensor 演算性能を持つ
  • 最近の PyTorch ブログと torchtitan では、H100 の MFU を 40% 前後と報告している
  • H100 ノードのコストは 1 時間あたり $3 程度と見積もられる(利用先によって多少異なるため平均値)

1件のコメント

 
parkindani 2024-08-01

価格よりも、使われたエネルギーの総量のほうが気になりますね。