Metaの大規模言語モデル訓練方法

(engineering.fb.com)

6 ポイント投稿者 GN⁺ 2024-06-13 | 1件のコメント | WhatsAppで共有

Metaは大規模言語モデル（LLM）の学習に大規模な計算能力を必要とする
従来のAIモデル学習では多数のモデルを学習させていたが、必要なGPU数は比較的少なかった
生成AI（GenAI）の登場により、ジョブ数は減った一方で、非常に大規模なジョブが必要になった

大規模モデル訓練の課題

ハードウェア信頼性: ハードウェア障害による訓練中断を最小化するため、厳格なテストと品質管理が必要。
障害時の迅速な復旧: ハードウェア障害が発生した場合、迅速に復旧できる必要がある。再スケジューリングのオーバーヘッドを減らし、訓練の再初期化を素早く行う必要がある。
訓練状態の効率的な保存: 障害時に訓練状態を効率的に保存・復旧できる必要がある。
GPU間の最適な接続性: 大規模モデル訓練ではGPU間のデータ転送が重要である。そのため、高速なネットワークインフラと効率的なデータ転送プロトコルが必要。

インフラスタックの全レイヤーを改善することが重要

訓練ソフトウェア

研究者がPyTorchのようなオープンソースを使って、研究から本番環境へ素早く移行できるよう支援している。
大規模訓練向けの新しいアルゴリズムや技術を開発し、新たなソフトウェアツールやフレームワークを統合している。

スケジューリング

リソースを最適化するため、複雑なアルゴリズムを用いてジョブの要件に応じてリソースを割り当て、動的にスケジューリングしている。

ハードウェア

大規模モデル訓練を処理するため、高性能なハードウェアが必要。
既存ハードウェアを最適化し、NVIDIA H100 GPUを使用したGrand Tetonプラットフォームを改良して、GPUのTDPを700Wに引き上げ、HBM3へ移行した。

データセンター配置

GPUとシステムをデータセンター内に最適配置し、電力・冷却・ネットワーキングなどのリソースを最適化している。
最大の計算密度を実現するため、GPUラックを可能な限り多く配置している。

信頼性

ハードウェア障害時のダウンタイムを最小化するため、検知と復旧の計画を立てている。
頻繁に発生する障害モード: GPU未認識、DRAM & SRAM UCE、ハードウェアネットワークケーブルの問題。

ネットワーク

大規模モデル訓練には、高速なネットワークインフラと効率的なデータ転送プロトコルが必要。
RoCEとInfiniBandという2種類のネットワーククラスタを構築し、運用経験を通じて知見を得ている。

ストレージ

大規模データ保存のため、大容量・高速ストレージ技術に投資し、特定のワークロードに適した新しいデータ保存ソリューションを開発している。

今後の展望

数十万台のGPUを使ってより多くのデータを処理し、より長い距離と遅延を扱う予定。
新しいハードウェア技術とGPUアーキテクチャを採用し、インフラを発展させていく計画。
AIの進化する環境を切り開き、可能性の限界を押し広げるために取り組んでいく。

1件のコメント

GN⁺ 2024-06-13

Hacker Newsの意見

GPU接続の問題: GPUがPCIeバス上で認識されない問題に言及している。
冷却インフラ: 既存の空冷環境を維持しながら、機械設計および熱設計を変更する必要があった。
時間的制約: 時間的制約がモデル全体の品質に影響した。
Metaの検索機能: Metaは新しいLLMを訓練するよりも、検索機能を改善してほしいという意見。
データ収集方法: Metaがどのようにデータを収集・準備しているのか、特にPII（個人識別情報）をどのように整理しているのかが気になる。
コストの問題: LLMはクラウド以外のアプリケーションでは、コスト面の問題から非現実的かもしれないと言及している。
クラスター構築: 2つの24kクラスターを構築し、運用経験を学ぼうとする試みが印象的である。
ジョブスケジューリング: 大規模なマシンアレイでジョブをどのようにスケジュールしているのかについて、具体的な情報が不足している。
収益化: MetaがLLMを大規模に活用して、どのように収益化するのかが明確ではない。
GoogleのAI優位: Googleがカスタムシリコンを通じてAI分野で優位に立っているという意見。
ドメイン名: Metaのドメインが今でもengineering.fb.comであるのが興味深い。