Mixture of Experts(MoE)とは何か — DeepSeekが1.6兆パラメータなのに低コストで動く理由
(app-place-tech.com)Mixture of Experts(MoE)とは何か — DeepSeekが1.6兆パラメータなのに低コストで動く理由
DeepSeek V4が1.6兆パラメータでありながら、GPT-5.5の10分の1の価格でサービス提供できる理由を、MoEアーキテクチャで説明します。
MoEは、複数の専門家(Expert)サブモデルと、どの専門家を使うかを決めるルーター(ゲーティングネットワーク)で構成されます。核心は、各トークンごとに全パラメータのうち一部だけを選択的に活性化することです。従来の密結合モデル(Dense Model)は、入力が何であってもすべてのパラメータが計算に参加しますが、MoEではルーターが最も適した専門家を数個だけ選んで処理します。
DeepSeek V4-Proでは、総パラメータ1.6兆のうち、トークンごとに活性化されるのは490億(約3%)だけです。1.6兆規模の知識を保持しつつ、実際の推論コストは490億規模のモデルとほぼ同程度というわけです。一般にMoEは、同規模の密結合モデルと比べて、価格対性能を3〜5倍改善します。
欠点もあります。計算は疎に行われますが、すべての専門家のパラメータをメモリ上に載せておく必要があるためVRAM要求量が高く、学習時には特定の専門家に負荷が集中する不均衡の問題も別途管理しなければなりません。
2026年現在、GPT-4、Gemini 1.5、Mixtral、DeepSeekシリーズなど、主要なフロンティアモデルの大半はMoEベースです。AIモデル競争の軸が単純なサイズからコスト対性能へと移る中で、MoEが事実上の標準アーキテクチャとして定着した結果です.
4件のコメント
2026年にgpt4 gemini 1.5ですか? 露骨なAIスロップ記事ですね
最新のモデルは内部実装方式を詳しく明かしていないため、調査段階では以前のモデルの資料が出てきたのだと思いますし、GPT-5以降に登場したモデルはすべてMoE構造を受け継いでいる可能性が高いです。オープンソースの並列モデルがMoE構造になっているためです。最近のclosedモデルについてはアーキテクチャを公開していないので、確定した公式見解ではありません。
MoEを使用する主要なフロンティアモデルの中で、GPT-5.5はMoEを使っていないということですか?
49Bでもかなりの規模ですね