Meta、Open Compute Project (OCP) Global Summit 2024で最新のAIハードウェア設計を公開
- 新しいAIプラットフォーム、最先端のオープンラック設計、高度なネットワークファブリックや各種コンポーネントなどの革新技術を披露
- 設計を共有することで協業を促進し、イノベーションを加速させることを目指す
MetaのAIモデリング革新とインフラの進化
- Metaは長年にわたり、AIモデリングの革新を通じてフィードや広告システムなどの機能を最適化・改善してきた
- 新しく高度なAIモデルを開発・公開するのに伴い、新たなAIワークロードを支えるためのインフラ進化にも注力している
- たとえば、Llama 3.1 405Bモデルを訓練するため、訓練スタック全体に大規模な最適化を施し、16,000基以上のNVIDIA H100 GPUで運用できるようにした
- 2023年の間に訓練クラスタを1Kから16K GPUへ急速に拡張し、現在は24K-GPUクラスタでモデルを訓練している
- AI訓練に必要な計算量は、今後も大幅に増加すると見込まれる
AIクラスタ構築におけるネットワーキングと帯域幅の重要性
- GPUに加えて、ネットワーキングと帯域幅はクラスタ性能を確保するうえで重要な役割を果たす
- Metaのシステムは、HPCコンピューティングシステムとGPUおよびドメイン特化型アクセラレータを接続する高帯域幅コンピューティングネットワークで構成されている
- 今後はアクセラレータあたり毎秒テラバイト級のインジェクション帯域幅の増加が見込まれ、これは現在のネットワークと比べて10倍以上の成長にあたる
- これを支えるには、高性能・多層・ノンブロッキングのネットワークファブリックが必要であり、それによってAIクラスタの潜在能力を最大限に引き出せる
オープンハードウェアによるAIスケーラビリティの確保
- この速度でAIを拡張するには、オープンハードウェアソリューションが必要
- オープン性の原則に基づく新しいアーキテクチャ、ネットワークファブリック、システム設計の開発が、最も効率的で影響力が大きい
- オープンハードウェアに投資することで、AIの潜在力を最大限に引き出し、AI分野の継続的なイノベーションを推進できる
AIインフラ向けオープンアーキテクチャ「Catalina」の紹介
- MetaはAIワークロード向け高性能ラックCatalinaの投入予定をOCPコミュニティに発表した
- CatalinaはNVIDIA Blackwellプラットフォームのラックスケールソリューション全体を基盤とし、モジュール性と柔軟性を重視している
- 最新のNVIDIA GB200 Grace Blackwellスーパーチップをサポートするよう設計されており、現代のAIインフラで高まり続ける要求に応える
- GPUの電力要求の増大により、オープンラックソリューションはより高い電力能力をサポートする必要がある
- Catalinaでは、最大140kWをサポートできるOrv3高出力ラック(HPR)を導入する
- ソリューションは完全な液冷方式で、さまざまなコンポーネントで構成される
- Catalinaのモジュール設計により、特定のAIワークロードに合わせてラックをカスタマイズできる
Grand TetonプラットフォームのAMDアクセラレータ対応
- Grand TetonはMetaの次世代AIプラットフォームで、メモリ帯域幅ボトルネック型ワークロードと計算ボトルネック型ワークロードの双方の要件を満たすよう設計されている
- Grand TetonプラットフォームはAMD Instinct MI300Xをサポートするよう拡張され、この新バージョンをOCPに提供する予定
- Grand Tetonは従来版と同様に単一モノリシックシステム設計を採用し、電源、制御、計算、ファブリックインターフェースが完全に統合されている
- AMD Instinct MI300Xをはじめとする多様なアクセラレータ設計をサポートするだけでなく、より大きな計算容量、拡張されたメモリ、増加したネットワーク帯域幅も提供する
オープンな分離型スケジュールドファブリック(DSF, Disaggregated Scheduled Fabric)
- AI訓練クラスタの性能を引き続き向上させるには、オープンでベンダー中立なネットワーキングバックエンドの開発が重要な役割を果たす
- ネットワークを分離することで、業界全体のサプライヤーと協力し、革新的でスケーラブルかつ柔軟で効率的なシステムを設計できる
- Metaの次世代AIクラスタ向け新DSFは、既存のスイッチと比べて複数の利点を提供する
- DSFはオープンなOCP-SAI標準と、Meta独自のネットワークOSであるFBOSSによって動作する
- NVIDIA、Broadcom、AMDなど複数ベンダーの各種GPUおよびNICにまたがり、エンドポイントとアクセラレータ向けのオープンで標準的なEthernetベースのRoCEインターフェースをサポートする
- DSFに加えて、BroadcomおよびCisco ASICをベースとする新しい51Tファブリックスイッチを開発・構築しており、Meta初の自社設計ネットワークASICを含む新しいNICモジュールFBNICも共有している
MetaとMicrosoftのオープンイノベーション推進に向けた協業
- MetaとMicrosoftはOCP内で長年のパートナーシップを築いており、2018年のデータセンター向けスイッチ抽象化インターフェース(SAI)開発に始まる
- オープンアクセラレータモジュール(OAM)標準やSSD標準化などの主要イニシアチブに貢献してきた
- 現在、両社の協業は新しい分離型電源ラックMount Diabloに焦点を当てている
- Mount Diabloは、効率性と拡張性を高めるスケーラブルな400VDCユニットを特徴とする最先端ソリューションであり、AIインフラを大きく前進させる
AIインフラのオープンな未来
- MetaはオープンソースAIに取り組んでおり、オープンソースが世界中の人々にAIの恩恵と機会をもたらすと信じている
- 協業なしには、AIはその潜在力を実現できないだろう
- モデル革新を推進し、移植性を確保し、AI開発の透明性を高めるためには、オープンなソフトウェアフレームワークが必要
- 集合知を活用し、AIをよりアクセスしやすくし、システムのバイアスを最小化するため、オープンで標準化されたモデルを優先すべきである
- AIの発展に必要な高性能・低コスト・適応性の高いインフラを提供するには、オープンなAIハードウェアシステムも必要
- AIハードウェアシステムの今後の発展に貢献したい人は誰でも、OCPコミュニティへの参加が推奨される
- AIのインフラ要件を共に解決することで、すべての人のためのオープンAIという真の約束を実現できる
GN⁺の見解
- 複数のGPUおよびNICベンダーをまたぐオープンなネットワーク技術によって、ベンダーロックインを克服し、AI訓練クラスタの拡張性と柔軟性を高められる
- MetaとMicrosoftの協業は、オープンAIインフラ革新を加速するうえで重要な役割を果たしうる。両社がOCPを通じて長年築いてきたパートナーシップを基盤に、新たな標準とソリューションの開発をさらに加速させることが期待される
- オープンソースAIに対するMetaの強い支持は心強い。オープンソースこそが、AIの潜在力を民主化し、社会全体にAIの機会を広げる道である
- オープンAIインフラを構築する過程では、透明性、説明可能性、倫理的配慮などもあわせて扱われるべきである。技術進歩と同じくらい、AIに対する社会的信頼の構築が重要だ
- AIハードウェアとソフトウェアのエコシステムが共に成長していくには、産業界全体の協力に加え、学界、政策立案者など多様なステークホルダーの参加が不可欠である。OCPがそのための中核プラットフォームとなることが期待される
1件のコメント
Hacker Newsの意見
OpenAIとMeta AIの競争を、macOS vs Windows、iOS vs Androidのようなプラットフォーム競争として見る意見がある
ZuckerbergとFacebookは多くの批判を受けているが、エンジニアリングとオープンソースに多額の投資を行っている
MetaはLlama 3.1 405Bモデルを訓練するために16,000基以上のNVIDIA H100 GPUを使用しており、これは大規模な投資を意味する
MetaのオープンソースLLMは多くのユーザーにとって魅力的だろうという意見がある
Meta、Microsoft、OpenAIがNVIDIAと競争するためにオープンなチップ設計で協力する可能性はあるのか、と疑問を呈している
Metaが核融合発電所のようなエネルギー生産施設の隣にAIデータセンターを構築する可能性に言及している
MetaがOpenAIに続いてNVIDIAも標的にしているのか疑問を呈している
「Open」という概念は、もはやミームになっていると言及している