- Metaは大規模言語モデル(LLM)の学習に大規模な計算能力を必要とする
- 従来のAIモデル学習では多数のモデルを学習させていたが、必要なGPU数は比較的少なかった
- 生成AI(GenAI)の登場により、ジョブ数は減った一方で、非常に大規模なジョブが必要になった
大規模モデル訓練の課題
- ハードウェア信頼性: ハードウェア障害による訓練中断を最小化するため、厳格なテストと品質管理が必要。
- 障害時の迅速な復旧: ハードウェア障害が発生した場合、迅速に復旧できる必要がある。再スケジューリングのオーバーヘッドを減らし、訓練の再初期化を素早く行う必要がある。
- 訓練状態の効率的な保存: 障害時に訓練状態を効率的に保存・復旧できる必要がある。
- GPU間の最適な接続性: 大規模モデル訓練ではGPU間のデータ転送が重要である。そのため、高速なネットワークインフラと効率的なデータ転送プロトコルが必要。
インフラスタックの全レイヤーを改善することが重要
訓練ソフトウェア
- 研究者がPyTorchのようなオープンソースを使って、研究から本番環境へ素早く移行できるよう支援している。
- 大規模訓練向けの新しいアルゴリズムや技術を開発し、新たなソフトウェアツールやフレームワークを統合している。
スケジューリング
- リソースを最適化するため、複雑なアルゴリズムを用いてジョブの要件に応じてリソースを割り当て、動的にスケジューリングしている。
ハードウェア
- 大規模モデル訓練を処理するため、高性能なハードウェアが必要。
- 既存ハードウェアを最適化し、NVIDIA H100 GPUを使用したGrand Tetonプラットフォームを改良して、GPUのTDPを700Wに引き上げ、HBM3へ移行した。
データセンター配置
- GPUとシステムをデータセンター内に最適配置し、電力・冷却・ネットワーキングなどのリソースを最適化している。
- 最大の計算密度を実現するため、GPUラックを可能な限り多く配置している。
信頼性
- ハードウェア障害時のダウンタイムを最小化するため、検知と復旧の計画を立てている。
- 頻繁に発生する障害モード: GPU未認識、DRAM & SRAM UCE、ハードウェアネットワークケーブルの問題。
ネットワーク
- 大規模モデル訓練には、高速なネットワークインフラと効率的なデータ転送プロトコルが必要。
- RoCEとInfiniBandという2種類のネットワーククラスタを構築し、運用経験を通じて知見を得ている。
ストレージ
- 大規模データ保存のため、大容量・高速ストレージ技術に投資し、特定のワークロードに適した新しいデータ保存ソリューションを開発している。
今後の展望
- 数十万台のGPUを使ってより多くのデータを処理し、より長い距離と遅延を扱う予定。
- 新しいハードウェア技術とGPUアーキテクチャを採用し、インフラを発展させていく計画。
- AIの進化する環境を切り開き、可能性の限界を押し広げるために取り組んでいく。
1件のコメント
Hacker Newsの意見