6 ポイント 投稿者 GN⁺ 2024-06-13 | 1件のコメント | WhatsAppで共有
  • Metaは大規模言語モデル(LLM)の学習に大規模な計算能力を必要とする
  • 従来のAIモデル学習では多数のモデルを学習させていたが、必要なGPU数は比較的少なかった
  • 生成AI(GenAI)の登場により、ジョブ数は減った一方で、非常に大規模なジョブが必要になった

大規模モデル訓練の課題

  • ハードウェア信頼性: ハードウェア障害による訓練中断を最小化するため、厳格なテストと品質管理が必要。
  • 障害時の迅速な復旧: ハードウェア障害が発生した場合、迅速に復旧できる必要がある。再スケジューリングのオーバーヘッドを減らし、訓練の再初期化を素早く行う必要がある。
  • 訓練状態の効率的な保存: 障害時に訓練状態を効率的に保存・復旧できる必要がある。
  • GPU間の最適な接続性: 大規模モデル訓練ではGPU間のデータ転送が重要である。そのため、高速なネットワークインフラと効率的なデータ転送プロトコルが必要。

インフラスタックの全レイヤーを改善することが重要

訓練ソフトウェア

  • 研究者がPyTorchのようなオープンソースを使って、研究から本番環境へ素早く移行できるよう支援している。
  • 大規模訓練向けの新しいアルゴリズムや技術を開発し、新たなソフトウェアツールやフレームワークを統合している。

スケジューリング

  • リソースを最適化するため、複雑なアルゴリズムを用いてジョブの要件に応じてリソースを割り当て、動的にスケジューリングしている。

ハードウェア

  • 大規模モデル訓練を処理するため、高性能なハードウェアが必要。
  • 既存ハードウェアを最適化し、NVIDIA H100 GPUを使用したGrand Tetonプラットフォームを改良して、GPUのTDPを700Wに引き上げ、HBM3へ移行した。

データセンター配置

  • GPUとシステムをデータセンター内に最適配置し、電力・冷却・ネットワーキングなどのリソースを最適化している。
  • 最大の計算密度を実現するため、GPUラックを可能な限り多く配置している。

信頼性

  • ハードウェア障害時のダウンタイムを最小化するため、検知と復旧の計画を立てている。
  • 頻繁に発生する障害モード: GPU未認識、DRAM & SRAM UCE、ハードウェアネットワークケーブルの問題。

ネットワーク

  • 大規模モデル訓練には、高速なネットワークインフラと効率的なデータ転送プロトコルが必要。
  • RoCEとInfiniBandという2種類のネットワーククラスタを構築し、運用経験を通じて知見を得ている。

ストレージ

  • 大規模データ保存のため、大容量・高速ストレージ技術に投資し、特定のワークロードに適した新しいデータ保存ソリューションを開発している。

今後の展望

  • 数十万台のGPUを使ってより多くのデータを処理し、より長い距離と遅延を扱う予定。
  • 新しいハードウェア技術とGPUアーキテクチャを採用し、インフラを発展させていく計画。
  • AIの進化する環境を切り開き、可能性の限界を押し広げるために取り組んでいく。

1件のコメント

 
GN⁺ 2024-06-13
Hacker Newsの意見
  • GPU接続の問題: GPUがPCIeバス上で認識されない問題に言及している。
  • 冷却インフラ: 既存の空冷環境を維持しながら、機械設計および熱設計を変更する必要があった。
  • 時間的制約: 時間的制約がモデル全体の品質に影響した。
  • Metaの検索機能: Metaは新しいLLMを訓練するよりも、検索機能を改善してほしいという意見。
  • データ収集方法: Metaがどのようにデータを収集・準備しているのか、特にPII(個人識別情報)をどのように整理しているのかが気になる。
  • コストの問題: LLMはクラウド以外のアプリケーションでは、コスト面の問題から非現実的かもしれないと言及している。
  • クラスター構築: 2つの24kクラスターを構築し、運用経験を学ぼうとする試みが印象的である。
  • ジョブスケジューリング: 大規模なマシンアレイでジョブをどのようにスケジュールしているのかについて、具体的な情報が不足している。
  • 収益化: MetaがLLMを大規模に活用して、どのように収益化するのかが明確ではない。
  • GoogleのAI優位: Googleがカスタムシリコンを通じてAI分野で優位に立っているという意見。
  • ドメイン名: Metaのドメインが今でもengineering.fb.comであるのが興味深い。