- 最新の**大規模言語モデル(LLM)**の構造図と主要仕様をひと目で整理したオンラインギャラリーで、2024〜2026年に公開された主要モデルを収録
- 各モデルはパラメータ規模、デコーダタイプ、アテンション方式、主要設計ポイントを要約した表形式で構成
- 資料は Sebastian Raschka の比較分析記事 ‘The Big LLM Architecture Comparison’ と ‘A Dream of Spring for Open-Weight LLMs’ から抜粋
- ユーザーはモデル名をクリックして該当する詳細説明へ移動したり、画像をクリックして**高解像度アーキテクチャ図(182メガピクセル)**を拡大したりできる
- オープンウェイト LLM の研究者や開発者向けの参照用アーキテクチャデータベースとして、最新の MoE・Hybrid・Dense 構造の進化を一か所で確認できる
概要
- このページはLLMアーキテクチャ図とファクトシートを収集したギャラリーで、Raschka の2本の主要比較記事から図表のみを抜粋して整理したもの
- 原文出典: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- 各モデル項目はモデル名、パラメータ数、公開日、デコーダタイプ、アテンション方式、主要設計特徴、関連概念リンクで構成
- 誤情報やリンクエラーを見つけた場合は GitHub の issue tracker から報告可能
- 要望が多かったため、Zazzle を通じて 14570×12490 解像度の**ポスター(56MB PNG)**版も提供
主なモデル例
Llama 3 8B
- 80億パラメータのDenseデコーダベースモデルで、OLMo 2 の正規化およびアテンション選択を比較するための基準スタック
- GQA + RoPE アテンションを使用し、Pre-norm 構造を維持
- 2024年4月18日公開
OLMo 2 7B
- 70億パラメータのDenseモデルで、MHA + QK-Norm アテンションを使用
- Inside-residual post-norm 構造により学習安定性を向上
- 2024年11月25日公開
DeepSeek V3
- 総パラメータ 6,710億のうち 370億が活性化されるSparse MoEモデル
- MLAアテンションと**共有エキスパート(shared expert)**構造を組み合わせている
- 大規模オープン MoE モデルのブームを引き起こした代表的テンプレート
DeepSeek R1
- DeepSeek V3 ベースの推論(reasoning)特化版で、同一アーキテクチャを維持
- 2025年1月20日公開、MLAベースの Sparse MoE 構造
Gemma 3 27B
- 270億パラメータのDenseモデルで、GQA + QK-Norm および 5:1 スライディングウィンドウ/グローバルアテンションを使用
- 多言語語彙の拡張とローカルアテンション強化が特徴
- 2025年3月11日公開
MoE および Hybrid アーキテクチャ拡張
Llama 4 Maverick
- Meta のSparse MoEモデルで、DeepSeek V3 の構造をベースにしつつ従来型 GQA アテンションを採用
- 総パラメータ 4,000億のうち 170億が活性化
- Dense と MoE ブロックを交互配置し、エキスパート数を減らしつつ規模を拡大
Qwen3 235B-A22B
- DeepSeek V3 に類似したSparse MoE構造から共有エキスパートを除去
- 総パラメータ 2,350億のうち 220億が活性化、GQA + QK-Norm を使用
- 2025年4月28日公開
Kimi K2
- 1兆パラメータ規模のSparse MoEモデルで、DeepSeek V3 を拡張
- MLAアテンションを使用し、エキスパート数を増やして MLA ヘッド数を削減
- 2025年7月10日公開
GLM-4.5 355B
- エージェント指向の Sparse MoEモデルで、DeepSeek のDense-prefix MoE構造を採用
- 総パラメータ 3,550億のうち 320億が活性化、GQA + QK-Norm を使用
- 2025年7月28日公開
GPT-OSS 20B / 120B
- OpenAI のオープンウェイト MoE シリーズで、GQAベースのスライディングウィンドウ/グローバル交差アテンションを使用
- 20B モデルは浅く広い構造、120B モデルは同一設計を拡張
- 2025年8月4日公開
Hybrid および次世代構造
Qwen3 Next 80B-A3B
- Gated DeltaNet + Gated Attention の混合アテンションを使用するSparse Hybridモデル
- 総パラメータ 800億のうち 30億が活性化、262k コンテキストをサポート
- 2025年9月9日公開
Kimi Linear 48B-A3B
- Linear Attention + MLA の結合型ハイブリッド構造
- NoPE の適用とチャネル単位ゲーティングにより長文脈効率を向上
- 2025年10月30日公開
Nemotron 3 Nano / Super
- NVIDIA のTransformer-State-Space Hybridモデル
- Nano(30B)はMamba-2 + MoE、Super(120B)はLatentMoE + MTPを追加
- それぞれ 2025年12月4日、2026年3月11日に公開
Ling 2.5 1T
- 1兆パラメータのSparse Hybridモデルで、Lightning Attention + MLA の組み合わせ
- 活性パラメータは 630億、7:1 比率の線形/MLAアテンション構成
- 2026年2月15日公開
最新のオープンウェイトモデル
Qwen3.5 397B
- Qwen3 Next のハイブリッドアテンションを継承した主力モデル
- 総パラメータ 3,970億のうち 170億が活性化、512 エキスパート構成
- 2026年2月16日公開
Sarvam 30B / 105B
- インド言語サポート重視のSparse MoEモデル
- 30B は GQA + QK-Norm、105B は MLA + NoPE + RoPE を使用
- 2026年3月3日公開
参考記事
- The Big LLM Architecture Comparison: Dense、MoE、MLA、Hybrid デコーダ構造の設計差を解説
- A Dream of Spring for Open-Weight LLMs: 2026年初頭に公開された MiniMax、Qwen、Ling、Sarvam などのオープンウェイトモデルを追加分析
2件のコメント
面白いですね
Hacker Newsの意見
数年にわたる実験の末に、オープンウェイトモデルが結局は似たような形に収束したのが興味深い
MoEルーティング、state-spaceモデル、線形attentionなどさまざまな試みがあったが、今では dense decoder-only transformer に RMSNorm、rotary position embedding、SwiGLU、grouped-query attention を組み合わせた形に落ち着いている
いまや差別化の核心は 訓練レシピとデータパイプライン へ移っている
DeepSeek-R1 の真の革新は構造ではなく 推論チェーンに対する強化学習 であり、Llama 3 も構造はほぼそのままだが、データと後処理のプロセスは完全に新しくなっている
これはチップ設計で ISA よりも 微細プロセスとマイクロアーキテクチャ が重要になった流れに似ている
Sebastian の文章はいつも読む価値がある
彼の著書 Build an LLM From Scratch を強く勧めたい。この本を通してようやく Transformer のメカニズム をきちんと理解できた
LLM Architecture Gallery を見るとモデル間の違いは興味深いが、この 7 年間、GPT-2 以降に 根本的な革新 はほとんどなかった
今日のオープンウェイトモデルも、遠目に見れば依然として GPT-2 に近い attention + feed-forward 層の反復構造 だ
最近の飛躍的な進歩は スケーリングと新しい訓練手法(RLVR など) によるもので、これは Bitter Lesson のもう一つの例に見える
本当に見事な可視化だ。以前見た Neural Network Zoo を思い出した
さまざまなニューラルネットワーク構造を一目で見渡せたあのプロジェクトのように、今回も アーキテクチャの多様性 をよく示している
素晴らしい仕事だ
もし ソート基準 があるのか気になる。進化の流れや革新の系譜を 家系図の形 で見られたら、さらに良くなると思う
また、モデルサイズの変化を スケールで可視化 すれば、発展の速度を直感的に感じられそうだ
本当にすごい。共有してくれてありがとう
拡大可能なバージョンは こちら で見られる
統計学者として、「ニューラルネットワークが関数を近似する」という概念から実際の 機械学習モデルのエンジニアリング へつながる モジュール的な理解の仕方 をずっと求めていた
今回の資料はその溝を埋めてくれるように感じる
この図はどんな ツール で描いたのか気になる
興味深いコレクションだ
実際にプロンプトパターンを比較してみると、アーキテクチャの違い が意外な形で表れる
たとえば 長いコンテキストウィンドウ は、単により多くのテキストを扱うだけでなく、入力構造そのものを異なる形に設計させる
構造的に最も単純で、それでいて 競争力のあるモデル は何なのか気になる
ここ数年、構造的な革新はほとんどなく、ほとんどは 訓練効率の向上 を目的とした変化だった
Transformer モデルは数多くの 先行研究の蓄積 の上で段階的に発展してきた成果物だ
クリックしたとき、LLM が 超高層ビルやダム、橋 を設計する話だと思って期待していた
ポップコーンまで用意したのに残念だった