大規模LLMのアーキテクチャ比較

(magazine.sebastianraschka.com)

26 ポイント投稿者 GN⁺ 2025-07-21 | 2件のコメント | WhatsAppで共有

過去7年間のLLMアーキテクチャは、GPT-2（2019）からDeepSeek-V3、Llama 4（2024-2025）まで、構造的には大きな変化なく進化しており、驚くほどの類似性を保っている
DeepSeek V3/R1、Llama 4 などの最新モデルは、Mixture-of-Experts（MoE）、MLA、Sliding Window Attention といった新しい最適化手法を導入し、メモリ効率と推論性能を向上させている
OLMo 2、Gemma 3 など一部のオープンソースモデルは、透明性の高いデータ公開と独特な normalization layer の配置により、研究・開発における優れた設計事例として注目されている
Qwen3、SmolLM3、Kimi 2 など、さまざまなサイズと構造のモデルが登場し、MoEとDenseアーキテクチャの長所・短所や利用目的に応じて選択肢が広がっている
最近のLLMの共通トレンドは、大規模化・高度化とともに、効率的な構造改良と多様なハードウェア環境への対応にある

はじめに

2017年のGPT原型以降、GPT-2（2019）からDeepSeek-V3およびLlama 4（2024-2025）までを見ると、LLMアーキテクチャは大枠では似通っている（基本的なTransformer構造は大きく変わっていない）
Positional embedding は絶対位置型からRoPEなどの方式へ変化し、Multi-Head Attention はメモリ・計算効率の高いGQA（Grouped Query Attention）へ移行しているが、根本構造は維持されている
性能比較はデータセットや学習方式によって左右されるため、構造の直接比較は難しい
本文では、最近のオープンLLMにおけるアーキテクチャ構造の変化を重点的に分析する

1. DeepSeek V3/R1

DeepSeek R1（2025年1月）は、DeepSeek V3アーキテクチャ（2024年12月）をベースに構築されており、高度な推論能力と大規模パラメータ（6710億）で注目を集めている
中核アーキテクチャ: Multi-Head Latent Attention（MLA）、Mixture-of-Experts（MoE）
MLA: Key/Value を低次元に圧縮して KV cache のメモリを削減し、GQAより良い性能を示す
MoE: FeedForward モジュールを複数の expert に分散し、トークンごとに一部の expert のみを有効化する sparse 構造
- DeepSeek V3: expert 256個、総パラメータ 671B、推論時には9個の expert（37Bパラメータ）のみ使用
- 常時有効な shared expert により、一般的なパターン学習を効率化
特徴: 大規模（671B）でありながら推論効率が高く、MLAでGQAより優位な性能を持ち、MoEにより大規模学習容量を確保

2. OLMo 2

Allen Institute for AI による完全公開型モデル
性能よりも透明性の高い設計とコード公開が強み
アーキテクチャ上のポイント: RMSNorm の位置（Post-Norm適用）、QK-Norm
- 既存のGPT系はPre-Normだが、OLMo 2はAttention/FeedForwardの後に normalization を適用する（Post-Norm系）
- QK-Norm: Attention の query/key に追加の RMSNorm を適用し、学習安定性を改善
伝統的なMulti-Head Attention（MHA） 構造を維持
Llama 3 などに似ているが、normalization 戦略で差別化されている

3. Gemma 3

Googleの代表的なオープンLLMで、多言語対応のための大規模 Vocabulary と27Bサイズのモデルに注力している点が特徴
Sliding Window Attention（ローカル window）により、KV cache メモリを大幅に削減
- Gemma 2: Global/Local 1:1、4k window、Gemma 3: 5:1比率、window を1024に縮小
- 性能（Perplexity）への影響はほとんどない
Normalization: GQA module 周辺に Pre-Norm と Post-Norm の RMSNorm を両方適用
Gemma 3n: 小型デバイス対応として、Per-Layer Embedding（層ごとのパラメータのみGPU常駐）、MatFormer（部分モデル分割利用） により軽量化

4. Mistral Small 3.1

Mistral Small 3.1 24Bは、Gemma 3 27Bより高速で、ベンチマークでも上位圏
カスタムトークナイザー、KV cache・層数の削減により推論遅延を最小化
Sliding window attention は採用せず、最適化されたGQA + FlashAttention を使って推論速度とコード効率を重視

5. Llama 4

MoEアーキテクチャを積極的に導入し、推論効率とモデル容量の両方を確保しており、構造はDeepSeek-V3に近い
GQAを使用し、MoE expert 数と hidden size が異なる
- DeepSeek-V3: 9個の expert（2,048）、Llama 4: 2個の expert（8,192）、アクティブパラメータは17B（DeepSeekは37B）
MoEブロックとDenseブロックを交互に挿入するクラシックなMoE設計
最近のLLMでMoEの普及が確認できる

6. Qwen3

さまざまなサイズのDense（0.6B〜32B）とMoE（30B-A3B、235B-A22B）バージョンを提供
小型（0.6B）は学習・推論効率とトークン throughputに優れ、超軽量LLMとして高い性能を確保し、メモリ効率と学習のしやすさも際立つ
Dense: 層数が多く、メモリ使用量は少ないが、速度は遅い（Llama 3 1B比）
MoE: Qwen3 235B-A22B はアクティブパラメータ22Bで、shared expert を使わず（以前のQwen2.5-MoEにはshared expertを含む）、効率性が向上
Qwen3 235B-A22B と DeepSeek-V3 は全体構造が非常によく似ている
DenseとMoEの両方を提供し、多様な利用目的に対応

7. SmolLM3

3Bパラメータ級の小型モデルで、Qwen3 1.7/4B、Llama 3 3B、Gemma 3 4B と競合
アーキテクチャは標準的だが、NoPE（No Positional Embedding）を適用
- RoPEなどの positional encoding を使わず、causal mask のみを活用
- 長いシーケンスでの長さ汎化（Length Generalization）を改善
- 実験的な構造で、一部の層にのみ適用

8. Kimi 2

1兆パラメータ級の大規模オープンモデルで、オープンモデルとしては最大規模
DeepSeek-V3 構造をベースに、MoEレイヤー数を拡張し、MLAのヘッド数を調整
学習に AdamW の代わりに Muon optimizer を使用し、学習効率を高め、loss decay も優秀
DeepSeek-V3 と比べて、より多くのMoE expert を持ち、MLA head 数は縮小
Kimi 1.5 の経験をもとに、Kimi 2でオープンウェイト公開と最高水準の性能を実現

結論とトレンド

最近のLLMは根本構造を維持しつつ、アーキテクチャの大規模化、MoEおよび各種効率化構造の導入が特徴となっている
オープンモデルでは、透明性の高いデータ、設計、コード公開により、研究および産業利用の価値が高まっている
DenseとMoE、MLA・GQA・Sliding Window Attention、多様な normalization 戦略など、各モデルで最適化の指向点が異なる
ハードウェア環境、利用目的、学習・推論効率に応じて、アーキテクチャの選択肢が多様化した時期といえる

2件のコメント

tensun 2025-07-22

韓国語はQwenがうまくできている気がします。

GN⁺ 2025-07-21

Hacker Newsの意見

この記事はLLMアーキテクチャについて学ぶのに、抽象化のレベルと説明の詳しさが絶妙で、元の論文を読むよりもずっと楽に多くの情報を吸収できた
初心者と専門家の中間くらいの人にとっては、この記事の図解はとても印象的で、最新モデルが一目で整理されているのが本当に役立つ
関連する内容として、DeepSeekがトランスフォーマーアーキテクチャをどう改善したかを説明する記事や、Metaのスーパーインテリジェンスに関する分析記事の一部セクションも参考になる
私のように最新動向を追えていなかった人にとって、こういう要約記事は本当にありがたいキャッチアップになる
今後は、o5、o3 Pro、o4または4.5、Gemini 2.5 Pro、Grok 4、Claude Opus 4 など、クローズドソースの frontier モデルに関する噂まで含めた第2部が出てほしい
異なるLLMアーキテクチャの違いを詳しく整理してくれてありがとう。おかげで理解しやすく、教育的でもあった
正直、GPT-2（2019）の時代と比べると、今の進歩の速さは信じがたいほどだ。最近ではLLMの性能をきちんと比較することすら難しく、2週間ごとに新しいモデルがベンチマークを塗り替えている。DeepSeekに言及があったのはうれしく、V3で導入されたアーキテクチャ上の革新によって計算効率が大きく向上し、それが当時ほかのモデルとの差別化要因を失わせた決定的なポイントだった
さまざまな新しいアーキテクチャが精度や速度の面で多くの革新を実現してきたが、正確な情報生成を保証するという根本的な問題は依然として解決されていない。Retrieval Augmented Generation（RAG）やエージェントなど、さまざまな方法がこの問題を改善してはいるが、将来のアーキテクチャが最終的にこうした方式を置き換えるのかも気になる
- 根本的に、トランスフォーマーはテキスト予測を目的として訓練されており、この方式には論理性の埋め込みに限界がある。これ以上ハルシネーションを減らすには、まったく異なる学習目標が必要だと思う
- モデルは、どんな状況で一般化してよいのか、それともより多くの情報が必要なのかを見分けられない。たとえば、なぜあるメソッドは存在するのに、別の似た関数は存在しないのかを簡単には区別できない。子どものころ、私は母のことを立派な cooker と呼んだことがあったが、機械と人間にはそれぞれ別の単語が割り当てられていると知らなかった。こうした似た言葉の一般化が、モデルにも当てはまるように感じる
- DeepSeek-V2 や Llama 3.1 のような最近のアーキテクチャは、設計上の改善だけでも事実性（factuality）がかなり向上することを示している。特に、attention メカニズムとハルシネーション抑制に特化した学習目標が背景にある
- RAG（検索ベースの応答）は構造的に単純で実装もしやすいのに、なぜいまだに基本的なLLMへ組み込まれていないのか、ずっと不思議だった。モデル内部へ完全に統合されていないということは、RAGやその派生手法の根本的な限界を逆に示しているようにも思える。本当に効果的な方法なら、外付けの追加機能ではなく、アーキテクチャの基本機能として導入されていたはずだと思う
Claudeに原文を読ませて、新しいアーキテクチャを提案してみるよう指示した
Claudeの結果リンク
ただ、この結果が実際に使いものになるのかはよくわからない

大規模LLMのアーキテクチャ比較

はじめに

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

結論とトレンド

関連記事

2件のコメント

Hacker Newsの意見