- Pangu Pro MoE は、Huawei Ascend NPU 環境に最適化された Mixture of Grouped Experts(MoGE)アーキテクチャ を導入し、分散環境におけるエキスパートごとの負荷不均衡の問題を効果的に解決
- このモデルは 総計720億パラメータ 規模で設計され、トークンごとに 160億パラメータのみを活性化 することで、計算効率とスケーラビリティを大幅に向上
- MoGE アーキテクチャは、異なるエキスパートグループごとに均等分配 と選択ルールを適用し、すべてのデバイスで 完全な負荷分散 を実現、推論および学習速度を改善
- 性能評価の結果、Pangu Pro MoE は GLM-Z1-32B、Qwen3-32B などの主要オープンソースモデルを上回り、Ascend 300I Duo/800I A2 プラットフォームで 最高水準の推論効率とコスト対性能 を示した
- 事前学習とファインチューニング、強化学習などを通じて、高品質データセットに基づく 多様なドメインに対する高い推論力と汎化能力 を確保
概要
- 近年、大規模言語モデル(LLM)では Mixture of Experts(MoE)方式 が採用され、計算コストを増やさずにモデルパラメータと学習容量を高めるトレンドが強まっている
- MoE 構造は、各入力トークンごとに一部のエキスパート(Expert)のみを活性化して計算量を減らすが、現実には一部のエキスパートだけが繰り返し選択される エキスパート負荷の不均衡 が存在する
- この問題は、モデルが複数デバイスに分散されている場合、システム全体の効率を低下させる
- 既存の負荷分散ヒューリスティック手法は部分的な改善にとどまり、根本的な解決策ではない
Mixture of Grouped Experts(MoGE)アーキテクチャの紹介
- MoGE は、エキスパート(Expert)を 同一サイズのグループ(Group)に分け、トークンごとに各グループから指定数のエキスパートのみを必ず活性化 する グループ均衡ルーティング戦略 を実装
- これにより、すべてのデバイスに作業が均等に分配され、Imbalance Score(IS)が 0 となる設計上常に完全なロードバランス を達成
- 各トークンについて、すべてのエキスパートの初期スコアをグローバル Softmax ルーターで算出した後、各グループごとに Top-K′ のエキスパートのみを選択し、未選択エキスパートのスコアは 0 になる
- この構造は、特に 分散環境の大規模モデル(数十億〜1000億パラメータ級) において、推論と学習速度、資源利用率を最大化する
Pangu Pro MoE モデルと Ascend プラットフォーム最適化
- Huawei は Ascend 300I Duo、800I A2 NPU プラットフォーム向けに最適化された Pangu Pro MoE(総計719億パラメータ、トークンごとに165億活性化) を開発
- 大規模なシステムシミュレーションに基づき、モデル構造やハードウェア(HW)の並列化構成(テンソル/エキスパート/パイプライン/仮想パイプライン並列性)など各種ハードウェアパラメータを調整して性能を最大化
- カスタム演算カーネル(MulAttention、SwiftGMM など)は Ascend の特性に合わせて最適化され、メモリアクセス、通信および計算オーバーヘッドを削減し、オペレーターごとのボトルネック解消と帯域利用率向上を実現
- バッチサイズと性能最適化のシミュレーション結果、制約条件内で最高の Throughput、最小の Latency、最適な通信効率などを示した
事前学習と学習データ設計
データ構成
- 独自トークナイザーに基づく 1.3京(13兆)トークン からなる大規模高品質データセットを構築し、Web、書籍、コード、STEM、産業、推論、合成データなど多様なソースから収集
- トークナイザーはドメインバランスを重視する戦略を採用し、特殊ドメインまで代表性を持たせた
学習段階と戦略
- 事前学習(Pre-training) は 3 段階(一般、推論、annealing)で進められ、各段階ごとに学習対象とデータカリキュラムを調整
- 一般段階: 多様な分野の一般知識と言語能力を習得
- 推論段階: STEM・コーディング・複雑な論理問題など複雑推論データの比重を最大化
- annealing 段階: 高難度データとインストラクションスタイルデータで追加チューニング
- 各段階では シーケンス長、データ難度、バッチサイズ、学習率などを段階的に調整 し、モデルの汎化能力と特化能力を確保
データ評価
- Pangu 独自シリーズモデルを用いた モデルベースのマルチドメイン評価システム を運用し、データごとにクリーンさ/流暢さ/教育的価値/豊富さなどの主要スコアを付与して、データサンプリングと選定戦略に反映
- 全 188 カテゴリにわたる精緻なラベリングを実施し、データ分布と特性を管理
事前学習環境と最適化
- Pangu Pro MoE は Huawei Ascend 800T A2 で学習および評価され、このチップは FP16 256TFlops、INT8 512TOPS の効率、310W の超低消費電力で高い AI 性能とコスト効率を実現
- 単一エポック学習、AdamW オプティマイザ、3 段階コサイン学習率スケジュール、大規模バッチ構成 などにより、堅牢な汎化と対象タスクごとの特化が可能
ポストトレーニング(後続のファインチューニングと強化学習)
Supervised Fine-tuning(SFT)
- SFT データは「推論」と「非推論」の 2 セットに区分され、推論の比重を 3:1 に高めて 数学/コード/論理推論など複雑な作業に集中
- 2 段階の段階的最適化戦略(広い範囲の単純指示から複雑推論へ徐々に発展)を通じて、モデルの段階的推論力と一般的な言語処理能力をバランスよく向上
- SFT 過程では チェックポイント統合 戦略も加え、多様な段階の中間時点のモデルを効果的に統合して堅牢性と汎化を強化
強化学習(RL)
- 報酬ベースの RL 段階では、Group Relative Policy Optimization(GRPO) アルゴリズムと、報酬信号のないサンプルを無視する Zero-Advantage-Mask 手法を併用し、方策探索と効果的な学習を支援
- 正確性、選好、補助報酬 などの多層報酬システムを導入し、数学およびコーディング作業は自動評価体系で、オープンドメイン課題は別途 LLM ベースの判定者(Preference Model)で評価
- カリキュラムデータミキシング により、データ複雑度分布を動的に調整し、モデル成長に継続的な刺激を提供
システムおよびインフラ最適化
Ascend NPU 学習システム
- 階層的・複合並列化(Hierarchical & Hybrid Parallelism)戦略 と、EP All-to-All 通信、Adaptive Pipeline Overlap、オペレーター融合などの先端技術を積極的に適用
- モデル演算効率(MFU)を 35% 向上 し、パイプライン・仮想パイプライン並列によって段階ごとの計算・通信負荷を完全に分散し、スケーラビリティとスループットの両方を強化
- カスタムカーネル、HBM 帯域活用の最大化、不要な通信およびメモリオーバーヘッドの削減 などにより、モデル訓練・推論の全段階で性能を最大限まで引き上げた
- 推論システム でも Attention、Expert などモジュール別の柔軟な並列構成(H2P 戦略)とカスタム演算子最適化により、各ハードウェア構造に適した最高の Throughput と Latency を示した
性能とベンチマーク
- Pangu Pro MoE は Ascend 環境で 1148〜1528 token/s(カードあたり)* の推論性能を示し、同級パラメータのオープンモデル(dense 32B、72B)に対して圧倒的な結果を実証
- Cost-to-Performance の面でも Ascend 300I Duo ベースで優れた効率 を達成
- 多様な外部ベンチマーク(意思決定、論理、コーディング、文書理解など)で GLM-Z1-32B、Qwen3-32B、Gemma3-27B などの大規模公開モデルを上回る性能
- 100B 未満のパラメータ級で最高水準 の LLM であることを実験的に示した
結論と示唆
- Pangu Pro MoE は 大規模モデルの分散学習/推論において、エキスパートグループの均衡設計によって負荷不均衡問題を根本的に解決 した
- Ascend 専用プラットフォーム最適化とデータ品質の最大化など全方位の取り組みにより、コスト・速度・汎化性能の高次元なバランス を達成した次世代の大規模言語モデルである
- この構造と方法論は、今後の大規模分散 LLM エコシステムおよび多様な産業応用において重要な参考・基準になると期待される
1件のコメント
Hacker Newsの意見
今回のアーキテクチャ発表が本当に楽しみな理由は、安価なGPUだけでも小規模な開発者が大手企業と競争できる可能性があるから。結局のところ、クラウドソーシング方式のオープンAI開発が技術的に実現可能であることを示唆している。実際、中国はこの分野を研究しており、モノリシックなモデルと競争できる水準を目指している。米国の制裁には当初懐疑的だったが、もしこれが論理的に完全に実現するなら、本当に大きな成果だと見なせる
ライセンスがEU内での使用・インストールを禁止しているが、「この制限は保護のために置いているだけで、実際には執行しない」という趣旨の条項を置いたライセンスが成立しうるのか気になる。こうした表現は「分離条項(isolating clause)」と呼べそうだが、裁判官がこれを法的な抜け道として認めるかは分からない。Metaがllamaのウェイトを公開したときと似た文脈のようだ。欧州AI法の本質はAIの具体的な利用を統制することだと思っており、単にウェイトとアーキテクチャを配布することは含まれない気がする。配布禁止は、実質的には欧州の人々により多くの選択肢と競争をもたらすはずなのに、本当に法的に禁止されるのか気になる。一方で、オープンウェイトをインストールするとバックドア(特定のプロンプトを通じてシステムを操作できる脆弱性)が生じうるという点で、セキュリティ上の注意も必要だと思う。関連論文で、
'0?,#2!'のような記号の組み合わせがLLMの隠れた情報を誰かが読める状態(プロンプトインジェクション)にできる事例を見た記憶がある。こうした攻撃をファインチューニングやLoRAで防げる、あるいは弱められるのか、また防御に有用なPythonライブラリがあるのかも気になる。ダウンロードして、インストールして、ファインチューニングやLoRAで修正すれば保護されるのかと質問しているウェイトは gitcode で入手できる
現在LLMがスケーリングの壁にぶつかっていて、今後は効率性が勝負どころになるのなら、特定のユースケースに焦点を当てた小型モデル市場が生まれるのか気になる。実際、Geminiで画像から構造化データを抽出する際にはflashモデルが非常に効果的。NUCやAMD APUのような小型デバイスで、特定用途だけを満たす軽量モデルを作るにはどれほどの労力がかかるのだろうか。あるいは、特定ユースケース向けのミニ外付けGPUスティックのような機器が現れる可能性も面白い。商業的には大きな市場ではないかもしれないが、かなりクールだと思う
制裁は一時しのぎに過ぎないと思う。理想的には国内能力を強化するための時間稼ぎだが、むしろ米国内の研究費削減と外国人留学生・研究者の流入抑制によって米国の能力が消耗する一方で、中国は成長軌道に乗ることになる
このニュースは数日前の話。TencentのハイブリッドAIモデルのオープンソース化については TechInAsia を参照、GitHubリンク も共有
Sic transit gloria nvidii(Nvidiaの栄光もこのように過ぎ去る)
invidiaはラテン語で「嫉妬」という意味nvidiaeが正しい。iはo変化の語尾中国人の友人がいる。6年前、中国のHWスタートアップで創業エンジニアとして参加した。その後、制裁がやってきた。最近会ったとき、友人は制裁が人生最高の出来事だったと言っていた。中国の現地企業が西側諸国原産の製品をまったく買わなくなり、その会社は大きく成長した。今では制裁は皆が「当然のこと」と受け止めているため、結果としては自力更生と成長への集中だけが残っている
制裁後、これはどんな意味を持つのか気になる。制裁で大打撃を受けたHuaweiスマートフォンが、今や自社GPUで反撃の機会を得るということなのか。このGPUの性能は西側の最新GPUと比べてどうなのか。HuaweiがこのGPUをすでに商用化できる能力を持っていることを意味するのか気になる
TSMCとNvidiaに対抗できるよう、Node Sizeの面でHuaweiと中国の競争構図が形成されることは世界的に必要だ