2 ポイント 投稿者 GN⁺ 2025-07-03 | 1件のコメント | WhatsAppで共有
  • Pangu Pro MoE は、Huawei Ascend NPU 環境に最適化された Mixture of Grouped Experts(MoGE)アーキテクチャ を導入し、分散環境におけるエキスパートごとの負荷不均衡の問題を効果的に解決
  • このモデルは 総計720億パラメータ 規模で設計され、トークンごとに 160億パラメータのみを活性化 することで、計算効率とスケーラビリティを大幅に向上
  • MoGE アーキテクチャは、異なるエキスパートグループごとに均等分配 と選択ルールを適用し、すべてのデバイスで 完全な負荷分散 を実現、推論および学習速度を改善
  • 性能評価の結果、Pangu Pro MoE は GLM-Z1-32B、Qwen3-32B などの主要オープンソースモデルを上回り、Ascend 300I Duo/800I A2 プラットフォームで 最高水準の推論効率とコスト対性能 を示した
  • 事前学習とファインチューニング、強化学習などを通じて、高品質データセットに基づく 多様なドメインに対する高い推論力と汎化能力 を確保

概要

  • 近年、大規模言語モデル(LLM)では Mixture of Experts(MoE)方式 が採用され、計算コストを増やさずにモデルパラメータと学習容量を高めるトレンドが強まっている
  • MoE 構造は、各入力トークンごとに一部のエキスパート(Expert)のみを活性化して計算量を減らすが、現実には一部のエキスパートだけが繰り返し選択される エキスパート負荷の不均衡 が存在する
  • この問題は、モデルが複数デバイスに分散されている場合、システム全体の効率を低下させる
  • 既存の負荷分散ヒューリスティック手法は部分的な改善にとどまり、根本的な解決策ではない

Mixture of Grouped Experts(MoGE)アーキテクチャの紹介

  • MoGE は、エキスパート(Expert)を 同一サイズのグループ(Group)に分け、トークンごとに各グループから指定数のエキスパートのみを必ず活性化 する グループ均衡ルーティング戦略 を実装
  • これにより、すべてのデバイスに作業が均等に分配され、Imbalance Score(IS)が 0 となる設計上常に完全なロードバランス を達成
  • 各トークンについて、すべてのエキスパートの初期スコアをグローバル Softmax ルーターで算出した後、各グループごとに Top-K′ のエキスパートのみを選択し、未選択エキスパートのスコアは 0 になる
  • この構造は、特に 分散環境の大規模モデル(数十億〜1000億パラメータ級) において、推論と学習速度、資源利用率を最大化する

Pangu Pro MoE モデルと Ascend プラットフォーム最適化

  • Huawei は Ascend 300I Duo、800I A2 NPU プラットフォーム向けに最適化された Pangu Pro MoE(総計719億パラメータ、トークンごとに165億活性化) を開発
  • 大規模なシステムシミュレーションに基づき、モデル構造やハードウェア(HW)の並列化構成(テンソル/エキスパート/パイプライン/仮想パイプライン並列性)など各種ハードウェアパラメータを調整して性能を最大化
  • カスタム演算カーネル(MulAttention、SwiftGMM など)は Ascend の特性に合わせて最適化され、メモリアクセス、通信および計算オーバーヘッドを削減し、オペレーターごとのボトルネック解消と帯域利用率向上を実現
  • バッチサイズと性能最適化のシミュレーション結果、制約条件内で最高の Throughput、最小の Latency、最適な通信効率などを示した

事前学習と学習データ設計

データ構成

  • 独自トークナイザーに基づく 1.3京(13兆)トークン からなる大規模高品質データセットを構築し、Web、書籍、コード、STEM、産業、推論、合成データなど多様なソースから収集
  • トークナイザーはドメインバランスを重視する戦略を採用し、特殊ドメインまで代表性を持たせた

学習段階と戦略

  • 事前学習(Pre-training) は 3 段階(一般、推論、annealing)で進められ、各段階ごとに学習対象とデータカリキュラムを調整
    • 一般段階: 多様な分野の一般知識と言語能力を習得
    • 推論段階: STEM・コーディング・複雑な論理問題など複雑推論データの比重を最大化
    • annealing 段階: 高難度データとインストラクションスタイルデータで追加チューニング
  • 各段階では シーケンス長、データ難度、バッチサイズ、学習率などを段階的に調整 し、モデルの汎化能力と特化能力を確保

データ評価

  • Pangu 独自シリーズモデルを用いた モデルベースのマルチドメイン評価システム を運用し、データごとにクリーンさ/流暢さ/教育的価値/豊富さなどの主要スコアを付与して、データサンプリングと選定戦略に反映
  • 全 188 カテゴリにわたる精緻なラベリングを実施し、データ分布と特性を管理

事前学習環境と最適化

  • Pangu Pro MoE は Huawei Ascend 800T A2 で学習および評価され、このチップは FP16 256TFlops、INT8 512TOPS の効率、310W の超低消費電力で高い AI 性能とコスト効率を実現
  • 単一エポック学習、AdamW オプティマイザ、3 段階コサイン学習率スケジュール、大規模バッチ構成 などにより、堅牢な汎化と対象タスクごとの特化が可能

ポストトレーニング(後続のファインチューニングと強化学習)

Supervised Fine-tuning(SFT)

  • SFT データは「推論」と「非推論」の 2 セットに区分され、推論の比重を 3:1 に高めて 数学/コード/論理推論など複雑な作業に集中
  • 2 段階の段階的最適化戦略(広い範囲の単純指示から複雑推論へ徐々に発展)を通じて、モデルの段階的推論力と一般的な言語処理能力をバランスよく向上
  • SFT 過程では チェックポイント統合 戦略も加え、多様な段階の中間時点のモデルを効果的に統合して堅牢性と汎化を強化

強化学習(RL)

  • 報酬ベースの RL 段階では、Group Relative Policy Optimization(GRPO) アルゴリズムと、報酬信号のないサンプルを無視する Zero-Advantage-Mask 手法を併用し、方策探索と効果的な学習を支援
  • 正確性、選好、補助報酬 などの多層報酬システムを導入し、数学およびコーディング作業は自動評価体系で、オープンドメイン課題は別途 LLM ベースの判定者(Preference Model)で評価
  • カリキュラムデータミキシング により、データ複雑度分布を動的に調整し、モデル成長に継続的な刺激を提供

システムおよびインフラ最適化

Ascend NPU 学習システム

  • 階層的・複合並列化(Hierarchical & Hybrid Parallelism)戦略 と、EP All-to-All 通信、Adaptive Pipeline Overlap、オペレーター融合などの先端技術を積極的に適用
  • モデル演算効率(MFU)を 35% 向上 し、パイプライン・仮想パイプライン並列によって段階ごとの計算・通信負荷を完全に分散し、スケーラビリティとスループットの両方を強化
  • カスタムカーネル、HBM 帯域活用の最大化、不要な通信およびメモリオーバーヘッドの削減 などにより、モデル訓練・推論の全段階で性能を最大限まで引き上げた
  • 推論システム でも Attention、Expert などモジュール別の柔軟な並列構成(H2P 戦略)とカスタム演算子最適化により、各ハードウェア構造に適した最高の Throughput と Latency を示した

性能とベンチマーク

  • Pangu Pro MoE は Ascend 環境で 1148〜1528 token/s(カードあたり)* の推論性能を示し、同級パラメータのオープンモデル(dense 32B、72B)に対して圧倒的な結果を実証
  • Cost-to-Performance の面でも Ascend 300I Duo ベースで優れた効率 を達成
  • 多様な外部ベンチマーク(意思決定、論理、コーディング、文書理解など)で GLM-Z1-32B、Qwen3-32B、Gemma3-27B などの大規模公開モデルを上回る性能
  • 100B 未満のパラメータ級で最高水準 の LLM であることを実験的に示した

結論と示唆

  • Pangu Pro MoE は 大規模モデルの分散学習/推論において、エキスパートグループの均衡設計によって負荷不均衡問題を根本的に解決 した
  • Ascend 専用プラットフォーム最適化とデータ品質の最大化など全方位の取り組みにより、コスト・速度・汎化性能の高次元なバランス を達成した次世代の大規模言語モデルである
  • この構造と方法論は、今後の大規模分散 LLM エコシステムおよび多様な産業応用において重要な参考・基準になると期待される

1件のコメント

 
GN⁺ 2025-07-03
Hacker Newsの意見
  • 今回のアーキテクチャ発表が本当に楽しみな理由は、安価なGPUだけでも小規模な開発者が大手企業と競争できる可能性があるから。結局のところ、クラウドソーシング方式のオープンAI開発が技術的に実現可能であることを示唆している。実際、中国はこの分野を研究しており、モノリシックなモデルと競争できる水準を目指している。米国の制裁には当初懐疑的だったが、もしこれが論理的に完全に実現するなら、本当に大きな成果だと見なせる

    • 制裁は(皮肉ではなく)実際に多くの面で世界をより良い方向に導けると思う。コンピューティングの多様化、製造の分散化など、さまざまな改善効果を促進する
    • Deepseek-R1はすでにGPT 4.1に近い水準。オープンウェイト、オープンソースの形で提供され、推論コードまでオープンソースで公開されている
    • SETI@HomeのようなピアツーピアのオープンGPUトレーニングネットワークに私も関心がある
    • クラウドソーシングのオープンAIが技術的に可能かという問いに対して、すでに可能だという事例として PrimeIntellect.aiのIntellect-2 のリンクを共有
    • 興味深い進展だと思う。ただし、AI技術が人類の生存に実存的脅威を与えるかどうかによって、これが良いことかどうかは決まると見る。大げさに聞こえるかもしれないが、実際にこの点を非常に深刻に考えている人は多い
  • ライセンスがEU内での使用・インストールを禁止しているが、「この制限は保護のために置いているだけで、実際には執行しない」という趣旨の条項を置いたライセンスが成立しうるのか気になる。こうした表現は「分離条項(isolating clause)」と呼べそうだが、裁判官がこれを法的な抜け道として認めるかは分からない。Metaがllamaのウェイトを公開したときと似た文脈のようだ。欧州AI法の本質はAIの具体的な利用を統制することだと思っており、単にウェイトとアーキテクチャを配布することは含まれない気がする。配布禁止は、実質的には欧州の人々により多くの選択肢と競争をもたらすはずなのに、本当に法的に禁止されるのか気になる。一方で、オープンウェイトをインストールするとバックドア(特定のプロンプトを通じてシステムを操作できる脆弱性)が生じうるという点で、セキュリティ上の注意も必要だと思う。関連論文で、'0?,#2!' のような記号の組み合わせがLLMの隠れた情報を誰かが読める状態(プロンプトインジェクション)にできる事例を見た記憶がある。こうした攻撃をファインチューニングやLoRAで防げる、あるいは弱められるのか、また防御に有用なPythonライブラリがあるのかも気になる。ダウンロードして、インストールして、ファインチューニングやLoRAで修正すれば保護されるのかと質問している

    • HuaweiにEU市民の行動を統制する権利はなく、そもそもこうした制限を入れる必要もなかったと思う。EU市民としては自分で法律を把握し、危険なモデルを避けることが自衛につながるという考え
    • セキュリティ面では、LLMが生成するコードは一切信用せず、必ずレビューが必要
    • 「分離条項」に似た条件の例として、Alliance for Open Mediaのコーデックライセンスを挙げて説明。そのコーデックはロイヤリティフリーだが、ライセンス条件上、フォーマット利用に関する法的訴訟を提起すると利用権が取り消される
  • ウェイトは gitcode で入手できる

    • ただし、ライセンスによればEU内でのアクセス、ダウンロード、インストール、実行、配布、統合、修正、その他の利用がすべて明示的に禁止されている。関連ライセンスのリンクは こちら
    • 「オープンソース」という用語ではなく、「オープンウェイト」という精密な表現が使われている点は良い。ただ、オープンウェイトが本当に興味深いものなのかは気になる。これはそのモデルのバイアス(あるいはバイアスのなさ)を知る助けになるのか。競合モデルの学習に活用できるのか。オープンソースとオープンウェイトの違いや長所・短所、LLM時代に「ウェイトこそがソース」と言えるのかを学びたい
  • 現在LLMがスケーリングの壁にぶつかっていて、今後は効率性が勝負どころになるのなら、特定のユースケースに焦点を当てた小型モデル市場が生まれるのか気になる。実際、Geminiで画像から構造化データを抽出する際にはflashモデルが非常に効果的。NUCやAMD APUのような小型デバイスで、特定用途だけを満たす軽量モデルを作るにはどれほどの労力がかかるのだろうか。あるいは、特定ユースケース向けのミニ外付けGPUスティックのような機器が現れる可能性も面白い。商業的には大きな市場ではないかもしれないが、かなりクールだと思う

    • 「特定のユースケースに焦点を当てた小型モデル」というテーマは、すでにHNで重要な議論になっている: "Small language models are the future of agentic AI"
    • 固有表現抽出向けモデルを探していて dslim/bert-base-NER モデルを知った。パラメータ数は1億800万
    • この方向性はすでに「モデル蒸留」(大規模LLMが生成したラベルを使い、専用の小型モデルが1000倍安く推論する)という名前で存在している
    • 昔、USBポートにASICを挿してビットコインを採掘していた時代を思い出す
  • 制裁は一時しのぎに過ぎないと思う。理想的には国内能力を強化するための時間稼ぎだが、むしろ米国内の研究費削減と外国人留学生・研究者の流入抑制によって米国の能力が消耗する一方で、中国は成長軌道に乗ることになる

  • このニュースは数日前の話。TencentのハイブリッドAIモデルのオープンソース化については TechInAsia を参照、GitHubリンク も共有

  • Sic transit gloria nvidii(Nvidiaの栄光もこのように過ぎ去る)

    • 言語学の豆知識: invidia はラテン語で「嫉妬」という意味
    • 5年間のラテン語学習が報われる瞬間だ
    • 細かい指摘だが、単数属格は nvidiae が正しい。io 変化の語尾
    • 正しい形は Sic transit gloria nvidiae
    • 今日読んだ中で最高、ブラボーという感想
  • 中国人の友人がいる。6年前、中国のHWスタートアップで創業エンジニアとして参加した。その後、制裁がやってきた。最近会ったとき、友人は制裁が人生最高の出来事だったと言っていた。中国の現地企業が西側諸国原産の製品をまったく買わなくなり、その会社は大きく成長した。今では制裁は皆が「当然のこと」と受け止めているため、結果としては自力更生と成長への集中だけが残っている

    • 業界ごとに影響の差はある。制裁前は、Synopsysのような大手EDA企業と比べて圧倒的な技術格差の中で辛うじて耐えていた小規模EDAソフトウェア企業が、今ではリスク回避需要によって大量の新規顧客を獲得している。これを「ホルミシス(hormesis)」と呼ぶ
  • 制裁後、これはどんな意味を持つのか気になる。制裁で大打撃を受けたHuaweiスマートフォンが、今や自社GPUで反撃の機会を得るということなのか。このGPUの性能は西側の最新GPUと比べてどうなのか。HuaweiがこのGPUをすでに商用化できる能力を持っていることを意味するのか気になる

    • Huaweiは思っている以上に巨大な企業。5G基地局だけでなく、携帯電話、電気自動車まで多様な分野で巨大だ
    • 「反撃の機会」という表現について言えば、Huaweiのスマートフォン販売はすでに中国国内でAppleを上回っている。詳細な市場シェアデータのリンク
    • ハードウェア面ではHuaweiは十分に競争力のあるスマホを作れる。ただし、Google Playストアがない状況では購入の妥当性を説明しづらい
    • Huawei全体の状況を説明する YouTube動画リンク を参考として勧める
  • TSMCとNvidiaに対抗できるよう、Node Sizeの面でHuaweiと中国の競争構図が形成されることは世界的に必要だ

    • 地政学的な問題を考えなければ非常に良いシナリオ。ただし、AI技術は諸刃の剣であり、消費者領域での競争はそのまま軍拡競争につながる可能性が高い。中国の製造力、人件費などを考えると、最終的には中国が勝つ可能性が高い。ただし、これを実現するにはまずASMLの代替生産が必要で、近い将来に現実的とは言えない
    • もし米国がチップ輸出規制を解除したとしても、中国政府がむしろ輸入規制をかける可能性が高いという印象がある。Nvidia/TSMC/Apple/Googleに対抗する本物の競争相手を育てることで得られる利益の方がはるかに大きい