- 過去7年間のLLMアーキテクチャは、GPT-2(2019)からDeepSeek-V3、Llama 4(2024-2025)まで、構造的には大きな変化なく進化しており、驚くほどの類似性を保っている
- DeepSeek V3/R1、Llama 4 などの最新モデルは、Mixture-of-Experts(MoE)、MLA、Sliding Window Attention といった新しい最適化手法を導入し、メモリ効率と推論性能を向上させている
- OLMo 2、Gemma 3 など一部のオープンソースモデルは、透明性の高いデータ公開と独特な normalization layer の配置により、研究・開発における優れた設計事例として注目されている
- Qwen3、SmolLM3、Kimi 2 など、さまざまなサイズと構造のモデルが登場し、MoEとDenseアーキテクチャの長所・短所や利用目的に応じて選択肢が広がっている
- 最近のLLMの共通トレンドは、大規模化・高度化とともに、効率的な構造改良と多様なハードウェア環境への対応にある
はじめに
- 2017年のGPT原型以降、GPT-2(2019)からDeepSeek-V3およびLlama 4(2024-2025)までを見ると、LLMアーキテクチャは大枠では似通っている(基本的なTransformer構造は大きく変わっていない)
- Positional embedding は絶対位置型からRoPEなどの方式へ変化し、Multi-Head Attention はメモリ・計算効率の高いGQA(Grouped Query Attention)へ移行しているが、根本構造は維持されている
- 性能比較はデータセットや学習方式によって左右されるため、構造の直接比較は難しい
- 本文では、最近のオープンLLMにおけるアーキテクチャ構造の変化を重点的に分析する
1. DeepSeek V3/R1
- DeepSeek R1(2025年1月)は、DeepSeek V3アーキテクチャ(2024年12月)をベースに構築されており、高度な推論能力と大規模パラメータ(6710億)で注目を集めている
- 中核アーキテクチャ: Multi-Head Latent Attention(MLA)、Mixture-of-Experts(MoE)
- MLA: Key/Value を低次元に圧縮して KV cache のメモリを削減し、GQAより良い性能を示す
- MoE: FeedForward モジュールを複数の expert に分散し、トークンごとに一部の expert のみを有効化する sparse 構造
- DeepSeek V3: expert 256個、総パラメータ 671B、推論時には9個の expert(37Bパラメータ)のみ使用
- 常時有効な shared expert により、一般的なパターン学習を効率化
- 特徴: 大規模(671B)でありながら推論効率が高く、MLAでGQAより優位な性能を持ち、MoEにより大規模学習容量を確保
2. OLMo 2
- Allen Institute for AI による完全公開型モデル
- 性能よりも透明性の高い設計とコード公開が強み
- アーキテクチャ上のポイント: RMSNorm の位置(Post-Norm適用)、QK-Norm
- 既存のGPT系はPre-Normだが、OLMo 2はAttention/FeedForwardの後に normalization を適用する(Post-Norm系)
- QK-Norm: Attention の query/key に追加の RMSNorm を適用し、学習安定性を改善
- 伝統的なMulti-Head Attention(MHA) 構造を維持
- Llama 3 などに似ているが、normalization 戦略で差別化されている
3. Gemma 3
- Googleの代表的なオープンLLMで、多言語対応のための大規模 Vocabulary と27Bサイズのモデルに注力している点が特徴
- Sliding Window Attention(ローカル window)により、KV cache メモリを大幅に削減
- Gemma 2: Global/Local 1:1、4k window、Gemma 3: 5:1比率、window を1024に縮小
- 性能(Perplexity)への影響はほとんどない
- Normalization: GQA module 周辺に Pre-Norm と Post-Norm の RMSNorm を両方適用
- Gemma 3n: 小型デバイス対応として、Per-Layer Embedding(層ごとのパラメータのみGPU常駐)、MatFormer(部分モデル分割利用) により軽量化
4. Mistral Small 3.1
- Mistral Small 3.1 24Bは、Gemma 3 27Bより高速で、ベンチマークでも上位圏
- カスタムトークナイザー、KV cache・層数の削減により推論遅延を最小化
- Sliding window attention は採用せず、最適化されたGQA + FlashAttention を使って推論速度とコード効率を重視
5. Llama 4
- MoEアーキテクチャを積極的に導入し、推論効率とモデル容量の両方を確保しており、構造はDeepSeek-V3に近い
- GQAを使用し、MoE expert 数と hidden size が異なる
- DeepSeek-V3: 9個の expert(2,048)、Llama 4: 2個の expert(8,192)、アクティブパラメータは17B(DeepSeekは37B)
- MoEブロックとDenseブロックを交互に挿入するクラシックなMoE設計
- 最近のLLMでMoEの普及が確認できる
6. Qwen3
- さまざまなサイズのDense(0.6B〜32B)とMoE(30B-A3B、235B-A22B)バージョンを提供
- 小型(0.6B)は学習・推論効率とトークン throughputに優れ、超軽量LLMとして高い性能を確保し、メモリ効率と学習のしやすさも際立つ
- Dense: 層数が多く、メモリ使用量は少ないが、速度は遅い(Llama 3 1B比)
- MoE: Qwen3 235B-A22B はアクティブパラメータ22Bで、shared expert を使わず(以前のQwen2.5-MoEにはshared expertを含む)、効率性が向上
- Qwen3 235B-A22B と DeepSeek-V3 は全体構造が非常によく似ている
- DenseとMoEの両方を提供し、多様な利用目的に対応
7. SmolLM3
- 3Bパラメータ級の小型モデルで、Qwen3 1.7/4B、Llama 3 3B、Gemma 3 4B と競合
- アーキテクチャは標準的だが、NoPE(No Positional Embedding)を適用
- RoPEなどの positional encoding を使わず、causal mask のみを活用
- 長いシーケンスでの長さ汎化(Length Generalization)を改善
- 実験的な構造で、一部の層にのみ適用
8. Kimi 2
- 1兆パラメータ級の大規模オープンモデルで、オープンモデルとしては最大規模
- DeepSeek-V3 構造をベースに、MoEレイヤー数を拡張し、MLAのヘッド数を調整
- 学習に AdamW の代わりに Muon optimizer を使用し、学習効率を高め、loss decay も優秀
- DeepSeek-V3 と比べて、より多くのMoE expert を持ち、MLA head 数は縮小
- Kimi 1.5 の経験をもとに、Kimi 2でオープンウェイト公開と最高水準の性能を実現
結論とトレンド
- 最近のLLMは根本構造を維持しつつ、アーキテクチャの大規模化、MoEおよび各種効率化構造の導入が特徴となっている
- オープンモデルでは、透明性の高いデータ、設計、コード公開により、研究および産業利用の価値が高まっている
- DenseとMoE、MLA・GQA・Sliding Window Attention、多様な normalization 戦略など、各モデルで最適化の指向点が異なる
- ハードウェア環境、利用目的、学習・推論効率に応じて、アーキテクチャの選択肢が多様化した時期といえる
2件のコメント
韓国語はQwenがうまくできている気がします。
Hacker Newsの意見
Claudeの結果リンク
ただ、この結果が実際に使いものになるのかはよくわからない