- MetaはAIの未来に向けた主要投資の一環として、24,576 GPUクラスターを2基発表
- ハードウェア、ネットワーク、ストレージ、設計、性能、ソフトウェアに関する詳細を共有
- このクラスター設計はLlama 3のトレーニングに使用された
- Metaはオープンコンピュートとオープンソースに注力
- Grand Teton、OpenRack、PyTorchを基盤としてこうしたクラスターを構築し、業界全体でオープンなイノベーションを継続的に推進
- 今回の発表は、野心的なインフラロードマップの一段階
- 2024年末までに、ほぼ600,000基のH100に相当する計算性能を持つポートフォリオの一部として、350,000基のNVIDIA H100 GPUを含むインフラ構築を引き続き拡大することを目指す
Metaの大規模AIクラスターに関する洞察
- Metaの長期ビジョンは、誰もが恩恵を受けられるよう、オープンかつ責任ある形で構築された汎用人工知能(AGI)を実現すること
- AGIに向けた進展は、新しい製品、アプリの新たなAI機能、そして新しいAI中心のコンピューティングデバイスを生み出す
- MetaはAIインフラ構築に長い歴史を持ち、2022年には16,000基のNVIDIA A100 GPUを備えたAI研究用スーパーコンピュータークラスター(RSC)の詳細を初めて共有した
内部構造
- 新しいAIクラスターは、RSCで得た成功と教訓を基に構築された
- 研究者と開発者の体験および生産性を重視し、高性能ネットワークファブリックの効率性と主要なストレージの判断を通じて、より大規模で複雑なモデルを支える
ネットワーク
- Metaは1日に数十兆回のAIモデル実行を処理している
- 大規模サービスを提供するには、高度に発展した柔軟なインフラが必要
- Metaは独自のハードウェア、ソフトウェア、ネットワークファブリックをカスタム設計し、AI研究者の体験を最適化するとともに、データセンターの効率的な運用を確保している
コンピューティング
- 2つのクラスターは、Metaが社内で設計したオープンGPUハードウェアプラットフォームであるGrand Tetonを用いて構築された
- Grand Tetonは、電力、制御、コンピュート、ファブリックインターフェースを1つのシャーシに統合し、全体的な性能、信号整合性、熱性能を向上させる
ストレージ
- AIトレーニングにおいて、ストレージは重要な役割を果たす一方で、最も語られにくい側面の1つ
- Metaの分散ストレージソリューション「Tectonic」のバージョンをフラッシュメディア向けに最適化
- 自社開発のFUSE(Linux Filesystem in Userspace)APIを通じて、AIクラスターのデータおよびチェックポイント要件に対応
- 数千基のGPUが同期された形でチェックポイントを保存・読み込みでき、データロードに必要な柔軟性と高スループットを備えたエクサバイト級ストレージを提供
- Hammerspaceと協力し、並列ネットワークファイルシステム(NFS)展開を共同開発
性能
- 大規模AIクラスターを構築する際には、性能と使いやすさを同時に最大化することが重要な原則
- AIシステムの限界を押し広げつつ、設計のスケール能力を試す最良の方法は、単純にシステムを構築し、最適化し、実際にテストすること
- Metaはシステムを構築し、最適化し、実運用でテストすることで、設計のスケーラビリティを検証している
- AIワークロードを支える中核AIフレームワークであるPyTorchを継続的に進化させ、数十、さらには数十万規模のGPU学習に備えられるようにしている
オープンなAIイノベーションへのコミットメント
- MetaはAIソフトウェアとハードウェアにおけるオープンイノベーションへのコミットメントを維持している
- OCPの創設メンバーとして、オープンハードウェアのイノベーションを引き続き支援し、OCPコミュニティにGrand TetonやOpen Rackのような設計を提供
- また、業界の大部分を支えるAIソフトウェアフレームワークであるPyTorchの最大かつ主要な貢献者でもある
- オープンソースのハードウェアとソフトウェアは、大規模な課題の解決に役立つ重要なツールと見なされている
MetaのAIインフラの未来
- この2つのAIトレーニングクラスター設計は、AIの未来に向けたより大きなロードマップの一部
- Metaは2024年末までに、600,000基のH100に相当する計算性能を持つポートフォリオの一部として、350,000基のNVIDIA H100を含むインフラを引き続き拡大する計画
GN⁺の見解
- Metaが発表した24k GPUクラスターは、AI研究と開発における重要な前進を意味し、特に大規模AIモデルのトレーニングに必要な強力な計算資源を提供する
- このようなインフラは、AIモデルの複雑さと規模が継続的に増大する中で、研究者がより革新的なAIソリューションを開発できる基盤を整える
- Metaのオープンソースおよびオープンコンピュートへのコミットメントは、業界全体でのイノベーションを促進し、他の組織がこうした技術を活用して独自のAIソリューションを開発する助けとなりうる
- ただし、このような大規模クラスターは莫大なエネルギー消費に伴う環境影響を考慮する必要があり、これは持続可能性の重要な検討事項となりうる
- Metaの今回の発表は、AI技術の未来に関する興味深い洞察を提供し、AIの進歩が社会と産業に与える影響についてより深く考える機会を与える
1件のコメント
Hacker Newsのコメント
float8への言及とFLOPsの増加
ドットコム時代とAI時代の比較
計算能力とエンジニアリング時間の関係
パイプライン最適化作業への関心
Metaのエンジニアリング能力
エンジニアリングとインフラに関する歴史的観点
MetaのAIワークロード競争力の可能性
H100 GPUのコスト
MetaのAIイノベーションに対するオープンな姿勢
Metaの長期的ビジョンとAGI