4 ポイント 投稿者 GN⁺ 2024-03-13 | 1件のコメント | WhatsAppで共有
  • MetaはAIの未来に向けた主要投資の一環として、24,576 GPUクラスターを2基発表
    • ハードウェア、ネットワーク、ストレージ、設計、性能、ソフトウェアに関する詳細を共有
    • このクラスター設計はLlama 3のトレーニングに使用された
  • Metaはオープンコンピュートとオープンソースに注力
    • Grand Teton、OpenRack、PyTorchを基盤としてこうしたクラスターを構築し、業界全体でオープンなイノベーションを継続的に推進
  • 今回の発表は、野心的なインフラロードマップの一段階
    • 2024年末までに、ほぼ600,000基のH100に相当する計算性能を持つポートフォリオの一部として、350,000基のNVIDIA H100 GPUを含むインフラ構築を引き続き拡大することを目指す

Metaの大規模AIクラスターに関する洞察

  • Metaの長期ビジョンは、誰もが恩恵を受けられるよう、オープンかつ責任ある形で構築された汎用人工知能(AGI)を実現すること
  • AGIに向けた進展は、新しい製品、アプリの新たなAI機能、そして新しいAI中心のコンピューティングデバイスを生み出す
  • MetaはAIインフラ構築に長い歴史を持ち、2022年には16,000基のNVIDIA A100 GPUを備えたAI研究用スーパーコンピュータークラスター(RSC)の詳細を初めて共有した

内部構造

  • 新しいAIクラスターは、RSCで得た成功と教訓を基に構築された
  • 研究者と開発者の体験および生産性を重視し、高性能ネットワークファブリックの効率性と主要なストレージの判断を通じて、より大規模で複雑なモデルを支える

ネットワーク

  • Metaは1日に数十兆回のAIモデル実行を処理している
  • 大規模サービスを提供するには、高度に発展した柔軟なインフラが必要
  • Metaは独自のハードウェア、ソフトウェア、ネットワークファブリックをカスタム設計し、AI研究者の体験を最適化するとともに、データセンターの効率的な運用を確保している

コンピューティング

  • 2つのクラスターは、Metaが社内で設計したオープンGPUハードウェアプラットフォームであるGrand Tetonを用いて構築された
  • Grand Tetonは、電力、制御、コンピュート、ファブリックインターフェースを1つのシャーシに統合し、全体的な性能、信号整合性、熱性能を向上させる

ストレージ

  • AIトレーニングにおいて、ストレージは重要な役割を果たす一方で、最も語られにくい側面の1つ
  • Metaの分散ストレージソリューション「Tectonic」のバージョンをフラッシュメディア向けに最適化
    • 自社開発のFUSE(Linux Filesystem in Userspace)APIを通じて、AIクラスターのデータおよびチェックポイント要件に対応
    • 数千基のGPUが同期された形でチェックポイントを保存・読み込みでき、データロードに必要な柔軟性と高スループットを備えたエクサバイト級ストレージを提供
  • Hammerspaceと協力し、並列ネットワークファイルシステム(NFS)展開を共同開発

性能

  • 大規模AIクラスターを構築する際には、性能と使いやすさを同時に最大化することが重要な原則
  • AIシステムの限界を押し広げつつ、設計のスケール能力を試す最良の方法は、単純にシステムを構築し、最適化し、実際にテストすること
  • Metaはシステムを構築し、最適化し、実運用でテストすることで、設計のスケーラビリティを検証している
  • AIワークロードを支える中核AIフレームワークであるPyTorchを継続的に進化させ、数十、さらには数十万規模のGPU学習に備えられるようにしている

オープンなAIイノベーションへのコミットメント

  • MetaはAIソフトウェアとハードウェアにおけるオープンイノベーションへのコミットメントを維持している
  • OCPの創設メンバーとして、オープンハードウェアのイノベーションを引き続き支援し、OCPコミュニティにGrand TetonやOpen Rackのような設計を提供
  • また、業界の大部分を支えるAIソフトウェアフレームワークであるPyTorchの最大かつ主要な貢献者でもある
  • オープンソースのハードウェアとソフトウェアは、大規模な課題の解決に役立つ重要なツールと見なされている

MetaのAIインフラの未来

  • この2つのAIトレーニングクラスター設計は、AIの未来に向けたより大きなロードマップの一部
  • Metaは2024年末までに、600,000基のH100に相当する計算性能を持つポートフォリオの一部として、350,000基のNVIDIA H100を含むインフラを引き続き拡大する計画

GN⁺の見解

  • Metaが発表した24k GPUクラスターは、AI研究と開発における重要な前進を意味し、特に大規模AIモデルのトレーニングに必要な強力な計算資源を提供する
  • このようなインフラは、AIモデルの複雑さと規模が継続的に増大する中で、研究者がより革新的なAIソリューションを開発できる基盤を整える
  • Metaのオープンソースおよびオープンコンピュートへのコミットメントは、業界全体でのイノベーションを促進し、他の組織がこうした技術を活用して独自のAIソリューションを開発する助けとなりうる
  • ただし、このような大規模クラスターは莫大なエネルギー消費に伴う環境影響を考慮する必要があり、これは持続可能性の重要な検討事項となりうる
  • Metaの今回の発表は、AI技術の未来に関する興味深い洞察を提供し、AIの進歩が社会と産業に与える影響についてより深く考える機会を与える

1件のコメント

 
GN⁺ 2024-03-13
Hacker Newsのコメント
  • float8への言及とFLOPsの増加

    • float8への言及があり、これによりFLOPsが2倍になる。
    • xformersは現在2:4スパース性をサポートしており、FLOPsをさらに2倍にできる可能性がある。
    • Llama3はMLPでfloat8と2:4スパース性を使用し、H100 float16 FLOPsの4倍を使える可能性もある。
    • PyTorchはfp8を実験的にサポートしているが、精度の問題により、float8でattentionを実行するのは依然として複雑である。
    • おそらくattentionはfloat16で、RoPE/layernormsはfloat16/float32で、それ以外はすべてfloat8で処理できる。
  • ドットコム時代とAI時代の比較

    • ドットコム時代を経験したある人物は、モデル学習にかかる莫大な資本コストのため、AI時代にはやや落胆を感じている。
    • ドットコム時代の初期には、比較的少ないインフラコストで誰でもECサイトを始められた。
    • 現在は、Meta、Google、Microsoft、OpenAIのような大企業だけがAIモデルを構築できるように見える。
  • 計算能力とエンジニアリング時間の関係

    • Facebookが計算能力を10倍に増やせるなら、スタック全体を再設計すべきなのか、100倍ならどうなのかに関心がある。
    • 各再設計が単純な変更なのか、それともはるかに複雑な作業なのかという疑問。
    • クラスター内部に関する技術的理解が表面的なレベルなので、関連経験のある人の意見に興味がある。
  • パイプライン最適化作業への関心

    • パイプライン最適化作業に参加したい人が、どのように始めればよいのかという質問。
    • 機械学習サイエンティストがC/C++やインフラの知識を持ち、必要なときにシステムへ「降りていく」のか、それともCUDA/SIMDの専門家が「上がってきて」機械学習の仕事をするのかが気になっている。
  • Metaのエンジニアリング能力

    • Metaは否定的な圧力にもかかわらず、エンジニアリング分野で強力な成果を示している。
    • Metaがこうしたエンジニアリング能力をどのように収益化する計画なのかという疑問。
  • エンジニアリングとインフラに関する歴史的観点

    • DLRM論文と、Facebook初期のディスアグリゲーテッドラックおよびSDNへの言及。
    • 2018年の時点ですでに、SSDとDRAMをラック内の別の場所に配置しながら、大規模ニューラルネットワークで推薦システムとランキングを実行していた。
    • クリック予測モデルへの言及と、Intel AVX-2を使ったHOGWILD学習手法への驚き。
    • Metaがインフラ設計とSKU設計において今なお最高レベルの能力を持っていることを強調している。
  • MetaのAIワークロード競争力の可能性

    • MetaがAWS、MSFT、GOOGとAIワークロード分野で競争する可能性についての関心。
  • H100 GPUのコスト

    • MetaがH100 GPUにいくら支払っているのかについての推定。
    • 350,000台のNVIDIA H100を$10kで購入すると、総費用は$3.5bになる。
  • MetaのAIイノベーションに対するオープンな姿勢

    • MetaがAIイノベーションに対してオープンな姿勢を示していると認識している。
  • Metaの長期的ビジョンとAGI

    • Metaの長期的なビジョンは、汎用人工知能(AGI)を構築することである。