5 ポイント 投稿者 GN⁺ 2025-10-21 | 5件のコメント | WhatsAppで共有
  • アリババクラウドが開発したAegaeonプーリングシステムは、GPUの活用効率を9倍に高め、同等のLLMサービスに必要なNVIDIA GPU数を82%削減しました
  • このシステムは、GPUをモデルごとに固定せず、トークン単位で仮想化して共有プールから動的にスケジューリングすることで、複数のモデルが1枚のGPUを同時に使用できるようにします
  • 72Bパラメータ規模の多様なLLMを含む実サービステストで、GPU数は1,192台→213台へ削減されました
  • H20 GPU供給が限られた環境でも安定した性能を維持し、ServerlessLLM・MuxServeに対して1.5〜9倍のgoodput向上を記録しました
  • 論文はソウルSOSP 2025シンポジウムで公開されており、今後GPUリソース不足に直面するグローバルクラウド企業の大きな関心を引くと予想されます

Aegaeonプーリングシステムとその背景

  • アリババクラウドはAegaeonプーリングシステムを通じて、自社Model Studioマーケットプレイスで数か月にわたって行われたベータテストでNVIDIA GPU使用量を82%削減する成果を発表しました
  • この結果は、ソウルで開催された2025 ACM Symposium on Operating Systems(SOSP)で、ピアレビューを経て公開された論文を通じて紹介されました
  • この技術は、中国国内でNVIDIA H20などの最新GPU供給が限られた環境で、クラウドサービス事業者が既存リソースを最大限活用できるようにすることを目的としています

Aegaeon:推論専用スケジューラとしてGPU活用効率を最大化

  • Aegaeonはモデル学習効率を高めるシステムではなく、推論フェーズでGPUリソースを最大化するためのスケジューラです
    • 従来方式はモデル1つあたりGPU1台を固定する構成でしたが、Aegaeonはこれをトークン単位で分割して複数モデルが同時に利用できるよう設計されています
    • GPUの**「goodput」(実効処理量)**を最大9倍まで向上させ、不規則なLLMリクエストパターンでも安定したスループットを実現します
広告

テスト結果と削減効果

  • Peking Universityとアリババのインフラ部門研究チーム(CTOジンラン・ジョウを含む)が参加した数か月のベータテストで性能を実証しました
    • テスト期間中、1,192台のGPUを213台に削減し、同等レベルのLLM推論ワークロードを維持しました
    • 最大72Bパラメータ規模モデルを含む多数のLLM同時サービス環境でも高い効率を示しました
  • テストは米国の輸出規制後、中国国内で合法的に購入可能なH20 GPUを前提として実施されました
    • South China Morning Postの報道によれば、H20は現在中国国内の主要な代替アクセラレータとして使用されています

技術構成:2つの中核戦略

  • 1. マルチモデルパッキング(Multi-model packing):1枚のGPUに複数モデルを同時に配置し、リクエスト間のアイドルリソースを最小化します
  • 2. トークン単位自動スケール(Token-level autoscaling):リクエスト全体ではなく、生成中の出力トークン数に応じてリアルタイムに計算量を調整します
    • これにより不要なGPU予約を排除し、スループットあたりのコスト効率を最大化します
    広告
  • ベンチマーク結果として、ServerlessLLM・MuxServeを上回り1.5〜9倍の性能向上を達成しました

ネットワークおよびスタック統合

  • 論文では、使用された**ネットワーク構成(eRDMAベース)**の詳細は明記されていませんが、
    • アリババは自社のeRDMA(Elastic RDMA)ネットワークと高集積GPUスタックを備えていることで知られています
    • したがって、今回の結果は高度に最適化された内部インフラ統合環境に依存している可能性があります

示唆

  • GPU供給が限られた中国市場で、既存チップリソースで最大効率を引き出す戦略的ブレイクスルーとして評価されています
  • このアプローチは将来的にAWS、Google Cloud、Microsoft Azureなどのハイパースケーラーにとっても、推論効率改善のベンチマークモデルとなる可能性が高いです
  • GPUハードウェアそのものの限界を超え、ソフトウェア的スケジューリング・仮想化技術がAIインフラ競争力の新たな柱として浮上します

5件のコメント

 
jjpark78 2025-10-21

エヌビディア株が下がる音がどこかで聞こえるのかな…。

 
jeongsoop 2025-10-21

通常の場合、80%を削減すれば、GPUを5分の1だけ購入することにはならず、5倍のデータを処理する方向に進みます。

 
shakespeares 2025-10-21

本当にそうでしょうか?裏側があるのではないでしょうか?

 
GN⁺ 2025-10-21
Hacker Newsの意見
  • Alibaba Cloudは、人気の少ないモデルサービスに使われるNvidia GPUを最大82%削減したと発表している。調査によれば、Alibaba Cloud Marketplaceでは全リクエストの1.35%しかないもののために17.7%のGPUが割り当てられており、以前は1192個必要だった同じ処理を、今は213個のGPUで済ませている
    • これは具体的にどう動くのかよく分からない。未使用の間はGPU上にモデルをただ載せたまま待機しているのか気になる。こうした作業は通常、動的に割り当てられると考えていた。もちろんモデルを毎回ロードする回数を減らせるのは利点だが、モデル+GPUが数分以上アイドル状態ならリソースを解放することもあるだろう。実際、私はAI分野ではないのでSLURMで毎回ノードを割り当てて使うことに慣れている
    • 論文のFigure 1(a)によると17.7%は全3万枚のGPUに対する割合で、つまり5310枚のGPUが1.35%のリクエストを処理していることを示す。この削減幅は、47モデルしかない小規模な排他的ベータ環境で測定された値であり、733個の「cold」モデル全体をモデル数ベースで単純計算すると3321枚のGPUが必要になり、従来比で37.5%削減、全3万GPUクラスターでは6.6%削減に相当する
    • かつてはソフトウェアおよびコンピュータエンジニアが問題に真正面から向き合い、創造的にアルゴリズムやソリューションを設計してきた。米国の半導体産業規制の影響で、中国のエンジニアも過去のシリコンバレーのように自ら革新し、問題を解決する方向へ向かっている
  • コアとなる点は、Alibaba QwenやDeepSeekのような少数のモデルだけが推論リクエストを大量に受け、それ以外の大半のモデルは断続的にしか使われないため、全GPU資源の17.7%が全リクエストの1.35%だけに使われており非効率であること
    • こうしたその他のモデルは、おそらくずっと小さいサイズだろう
  • より良いリンクはTom's Hardware記事で、論文はこちらで読める
    • 上記URL(元はSCMP記事だった)をこのリンクに変更し、論文のリンクも本文上部に反映する予定
  • 米国が中国の技術発展を遅らせようとする試みは、中国が同じ道をたどれないようにする上では成功したが、皮肉にも中国が別の形でイノベーションを起こす可能性がある。もし中国企業がそのイノベーションをオープンソース化すれば、最終的に全体としてより高い効率と進歩を得られ、長期的には米国の「文明的ゲートキーピング」に感謝することになるかもしれない
    • 歴史的に見ると、技術を遮断しても中国は数年でその技術に追いつくか、さらに良いものを作り出してきた。西側の見方には傲慢さがあり、実際、ウェスタン企業の多くの製品開発にも中国の科学者や製造の貢献が相当あり、これらがなければ何もなかっただろう。AI研究者の名簿を見ても中国系はかなり多い
    • 米国内の反移民感情は、逆に米国のイノベーションに対する最大の障害になると思う。実際、イノベーションを生み出す人材が離れつつある。米国が世界中の人材獲得という優位を持たなくなれば、人口規模などで不利になる可能性がある。世界は新しいリーダーを探しており、中国はまだそこに立っていないが、数年後には可能性がある。中国の弱みは対外的な野心の欠如と、周辺地域(台湾・南シナ海)にだけこだわる傾向だ
    • 今や米国は中国の発展をこれ以上止められない。中国国内でもチップ輸入が禁止されるようになり、米国の措置は無意味になった。関連記事(2025年Nvidia AIチップ中国輸入禁止):CNBC記事
    • この状況は、第二次世界大戦後に日本が限られた資源で高燃費エンジンや軽量車を作ったことを思い出させる。こうした制約が米国や一部欧州にはなかったため差が大きく、結果として米国車の競争力が落ちた
    • 「ブーメラン効果」を語っているが、もう遅いと思う。2024年にはウェスタンラボが圧倒していたが、2025年には中国でdeepseek、qwen、kimi、glm、ernieなどのさまざまな最先端モデルが次々と登場している。いまではウェスタンラボよりも多くの中国のラボが最新モデルを連発している
  • 中国系企業のエンジニアリング/リサーチブログに興味がある。以前は西側企業のブログを見ていたが、今はFAANG以外のケーススタディをベンチマークとして使いたくなる時期だ
    • 中国企業の公式ブログにもこの種の最適化事例を扱う記事がしばしば上がってくるが、マーケティング記事と混ざっていることが多い。また、現地フォーラムにも関連内容が多いと考えられるが、英語話者にはアクセスしづらい。例:Alibaba Cloud大規模Kubernetesクラスター最適化事例
  • かなり小さいモデルだけで実験しているようだが、大きなモデルで本当にスケーラビリティがあるのか疑問だ
    • いずれもLLMなので、決して小さいわけではない。現在の運用環境は複数リージョンにまたがる213台のH20 GPUクラスターで、1.8–7Bモデル28件(TP=1)、32–72Bモデル19件(TP=4)を提供している
  • この仮想GPUシステムは、別のスケジューラ(ジョブ管理器)に見える。データ移動によるレイテンシ(遅延)がどの程度生じるのか気になる
  • この方式が他のワークロードにも適用できるか気になる
  • 結局、不要な行為(非効率なリソース使用)をやめたと受け取れる
  • 資源が豊富な機関なら、事前学習済みモデルを新しいハードウェアに移して「NVDA税」(Nvidia独占によるコスト)を削減できるだろうが、研究およびモデル訓練そのものは成熟したNVDAエコシステムの外では起こりにくいと思う