- アリババクラウドが開発したAegaeonプーリングシステムは、GPUの活用効率を9倍に高め、同等のLLMサービスに必要なNVIDIA GPU数を82%削減しました
- このシステムは、GPUをモデルごとに固定せず、トークン単位で仮想化して共有プールから動的にスケジューリングすることで、複数のモデルが1枚のGPUを同時に使用できるようにします
- 72Bパラメータ規模の多様なLLMを含む実サービステストで、GPU数は1,192台→213台へ削減されました
- H20 GPU供給が限られた環境でも安定した性能を維持し、ServerlessLLM・MuxServeに対して1.5〜9倍のgoodput向上を記録しました
- 論文はソウルSOSP 2025シンポジウムで公開されており、今後GPUリソース不足に直面するグローバルクラウド企業の大きな関心を引くと予想されます
Aegaeonプーリングシステムとその背景
- アリババクラウドはAegaeonプーリングシステムを通じて、自社Model Studioマーケットプレイスで数か月にわたって行われたベータテストでNVIDIA GPU使用量を82%削減する成果を発表しました
- この結果は、ソウルで開催された2025 ACM Symposium on Operating Systems(SOSP)で、ピアレビューを経て公開された論文を通じて紹介されました
- この技術は、中国国内でNVIDIA H20などの最新GPU供給が限られた環境で、クラウドサービス事業者が既存リソースを最大限活用できるようにすることを目的としています
Aegaeon:推論専用スケジューラとしてGPU活用効率を最大化
- Aegaeonはモデル学習効率を高めるシステムではなく、推論フェーズでGPUリソースを最大化するためのスケジューラです
- 従来方式はモデル1つあたりGPU1台を固定する構成でしたが、Aegaeonはこれをトークン単位で分割して複数モデルが同時に利用できるよう設計されています
- GPUの**「goodput」(実効処理量)**を最大9倍まで向上させ、不規則なLLMリクエストパターンでも安定したスループットを実現します
テスト結果と削減効果
- Peking Universityとアリババのインフラ部門研究チーム(CTOジンラン・ジョウを含む)が参加した数か月のベータテストで性能を実証しました
- テスト期間中、1,192台のGPUを213台に削減し、同等レベルのLLM推論ワークロードを維持しました
- 最大72Bパラメータ規模モデルを含む多数のLLM同時サービス環境でも高い効率を示しました
- テストは米国の輸出規制後、中国国内で合法的に購入可能なH20 GPUを前提として実施されました
- South China Morning Postの報道によれば、H20は現在中国国内の主要な代替アクセラレータとして使用されています
技術構成:2つの中核戦略
- 1. マルチモデルパッキング(Multi-model packing):1枚のGPUに複数モデルを同時に配置し、リクエスト間のアイドルリソースを最小化します
- 2. トークン単位自動スケール(Token-level autoscaling):リクエスト全体ではなく、生成中の出力トークン数に応じてリアルタイムに計算量を調整します
- これにより不要なGPU予約を排除し、スループットあたりのコスト効率を最大化します
- ベンチマーク結果として、ServerlessLLM・MuxServeを上回り1.5〜9倍の性能向上を達成しました
ネットワークおよびスタック統合
- 論文では、使用された**ネットワーク構成(eRDMAベース)**の詳細は明記されていませんが、
- アリババは自社のeRDMA(Elastic RDMA)ネットワークと高集積GPUスタックを備えていることで知られています
- したがって、今回の結果は高度に最適化された内部インフラ統合環境に依存している可能性があります
示唆
- GPU供給が限られた中国市場で、既存チップリソースで最大効率を引き出す戦略的ブレイクスルーとして評価されています
- このアプローチは将来的にAWS、Google Cloud、Microsoft Azureなどのハイパースケーラーにとっても、推論効率改善のベンチマークモデルとなる可能性が高いです
- GPUハードウェアそのものの限界を超え、ソフトウェア的スケジューリング・仮想化技術がAIインフラ競争力の新たな柱として浮上します
まだコメントはありません。