LLMアーキテクチャギャラリー

(sebastianraschka.com)

50 ポイント投稿者 GN⁺ 2026-03-16 | 2件のコメント | WhatsAppで共有

最新の**大規模言語モデル（LLM）**の構造図と主要仕様をひと目で整理したオンラインギャラリーで、2024〜2026年に公開された主要モデルを収録
各モデルはパラメータ規模、デコーダタイプ、アテンション方式、主要設計ポイントを要約した表形式で構成
資料は Sebastian Raschka の比較分析記事 ‘The Big LLM Architecture Comparison’ と ‘A Dream of Spring for Open-Weight LLMs’ から抜粋
ユーザーはモデル名をクリックして該当する詳細説明へ移動したり、画像をクリックして**高解像度アーキテクチャ図（182メガピクセル）**を拡大したりできる
オープンウェイト LLM の研究者や開発者向けの参照用アーキテクチャデータベースとして、最新の MoE・Hybrid・Dense 構造の進化を一か所で確認できる

概要

このページはLLMアーキテクチャ図とファクトシートを収集したギャラリーで、Raschka の2本の主要比較記事から図表のみを抜粋して整理したもの
- 原文出典: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
各モデル項目はモデル名、パラメータ数、公開日、デコーダタイプ、アテンション方式、主要設計特徴、関連概念リンクで構成
誤情報やリンクエラーを見つけた場合は GitHub の issue tracker から報告可能
要望が多かったため、Zazzle を通じて 14570×12490 解像度の**ポスター（56MB PNG）**版も提供

主なモデル例

Llama 3 8B

80億パラメータのDenseデコーダベースモデルで、OLMo 2 の正規化およびアテンション選択を比較するための基準スタック
GQA + RoPE アテンションを使用し、Pre-norm 構造を維持
2024年4月18日公開

OLMo 2 7B

70億パラメータのDenseモデルで、MHA + QK-Norm アテンションを使用
Inside-residual post-norm 構造により学習安定性を向上
2024年11月25日公開

DeepSeek V3

総パラメータ 6,710億のうち 370億が活性化されるSparse MoEモデル
MLAアテンションと**共有エキスパート（shared expert）**構造を組み合わせている
大規模オープン MoE モデルのブームを引き起こした代表的テンプレート

DeepSeek R1

DeepSeek V3 ベースの推論（reasoning）特化版で、同一アーキテクチャを維持
2025年1月20日公開、MLAベースの Sparse MoE 構造

Gemma 3 27B

270億パラメータのDenseモデルで、GQA + QK-Norm および 5:1 スライディングウィンドウ/グローバルアテンションを使用
多言語語彙の拡張とローカルアテンション強化が特徴
2025年3月11日公開

MoE および Hybrid アーキテクチャ拡張

Llama 4 Maverick

Meta のSparse MoEモデルで、DeepSeek V3 の構造をベースにしつつ従来型 GQA アテンションを採用
総パラメータ 4,000億のうち 170億が活性化
Dense と MoE ブロックを交互配置し、エキスパート数を減らしつつ規模を拡大

Qwen3 235B-A22B

DeepSeek V3 に類似したSparse MoE構造から共有エキスパートを除去
総パラメータ 2,350億のうち 220億が活性化、GQA + QK-Norm を使用
2025年4月28日公開

Kimi K2

1兆パラメータ規模のSparse MoEモデルで、DeepSeek V3 を拡張
MLAアテンションを使用し、エキスパート数を増やして MLA ヘッド数を削減
2025年7月10日公開

GLM-4.5 355B

エージェント指向の Sparse MoEモデルで、DeepSeek のDense-prefix MoE構造を採用
総パラメータ 3,550億のうち 320億が活性化、GQA + QK-Norm を使用
2025年7月28日公開

GPT-OSS 20B / 120B

OpenAI のオープンウェイト MoE シリーズで、GQAベースのスライディングウィンドウ/グローバル交差アテンションを使用
20B モデルは浅く広い構造、120B モデルは同一設計を拡張
2025年8月4日公開

Hybrid および次世代構造

Qwen3 Next 80B-A3B

Gated DeltaNet + Gated Attention の混合アテンションを使用するSparse Hybridモデル
総パラメータ 800億のうち 30億が活性化、262k コンテキストをサポート
2025年9月9日公開

Kimi Linear 48B-A3B

Linear Attention + MLA の結合型ハイブリッド構造
NoPE の適用とチャネル単位ゲーティングにより長文脈効率を向上
2025年10月30日公開

Nemotron 3 Nano / Super

NVIDIA のTransformer-State-Space Hybridモデル
Nano（30B）はMamba-2 + MoE、Super（120B）はLatentMoE + MTPを追加
それぞれ 2025年12月4日、2026年3月11日に公開

Ling 2.5 1T

1兆パラメータのSparse Hybridモデルで、Lightning Attention + MLA の組み合わせ
活性パラメータは 630億、7:1 比率の線形/MLAアテンション構成
2026年2月15日公開

参考記事

The Big LLM Architecture Comparison: Dense、MoE、MLA、Hybrid デコーダ構造の設計差を解説
A Dream of Spring for Open-Weight LLMs: 2026年初頭に公開された MiniMax、Qwen、Ling、Sarvam などのオープンウェイトモデルを追加分析

2件のコメント

orange 2026-03-17

面白いですね

GN⁺ 2026-03-16

Hacker Newsの意見

数年にわたる実験の末に、オープンウェイトモデルが結局は似たような形に収束したのが興味深い
MoEルーティング、state-spaceモデル、線形attentionなどさまざまな試みがあったが、今では dense decoder-only transformer に RMSNorm、rotary position embedding、SwiGLU、grouped-query attention を組み合わせた形に落ち着いている
いまや差別化の核心は 訓練レシピとデータパイプライン へ移っている
DeepSeek-R1 の真の革新は構造ではなく 推論チェーンに対する強化学習 であり、Llama 3 も構造はほぼそのままだが、データと後処理のプロセスは完全に新しくなっている
これはチップ設計で ISA よりも 微細プロセスとマイクロアーキテクチャ が重要になった流れに似ている
Sebastian の文章はいつも読む価値がある
彼の著書 Build an LLM From Scratch を強く勧めたい。この本を通してようやく Transformer のメカニズム をきちんと理解できた
LLM Architecture Gallery を見るとモデル間の違いは興味深いが、この 7 年間、GPT-2 以降に 根本的な革新 はほとんどなかった
今日のオープンウェイトモデルも、遠目に見れば依然として GPT-2 に近い attention + feed-forward 層の反復構造 だ
最近の飛躍的な進歩は スケーリングと新しい訓練手法（RLVR など） によるもので、これは Bitter Lesson のもう一つの例に見える
本当に見事な可視化だ。以前見た Neural Network Zoo を思い出した
さまざまなニューラルネットワーク構造を一目で見渡せたあのプロジェクトのように、今回も アーキテクチャの多様性 をよく示している
素晴らしい仕事だ
もし ソート基準 があるのか気になる。進化の流れや革新の系譜を 家系図の形 で見られたら、さらに良くなると思う
また、モデルサイズの変化を スケールで可視化 すれば、発展の速度を直感的に感じられそうだ
- DeepSeek 系列の進化を示す資料としてこの記事を参考にできる
本当にすごい。共有してくれてありがとう
拡大可能なバージョンはこちらで見られる
統計学者として、「ニューラルネットワークが関数を近似する」という概念から実際の 機械学習モデルのエンジニアリング へつながる モジュール的な理解の仕方 をずっと求めていた
今回の資料はその溝を埋めてくれるように感じる
この図はどんな ツール で描いたのか気になる
興味深いコレクションだ
実際にプロンプトパターンを比較してみると、アーキテクチャの違い が意外な形で表れる
たとえば 長いコンテキストウィンドウ は、単により多くのテキストを扱うだけでなく、入力構造そのものを異なる形に設計させる
構造的に最も単純で、それでいて 競争力のあるモデル は何なのか気になる
- 競争力は構造よりも 規模、データ、ファインチューニング用データ から生まれる
  ここ数年、構造的な革新はほとんどなく、ほとんどは 訓練効率の向上 を目的とした変化だった
- 「競争力」の定義を緩く取るなら、Markov chain も直接実装できる
  Transformer モデルは数多くの 先行研究の蓄積 の上で段階的に発展してきた成果物だ
クリックしたとき、LLM が 超高層ビルやダム、橋 を設計する話だと思って期待していた
ポップコーンまで用意したのに残念だった

LLMアーキテクチャギャラリー

概要

主なモデル例

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

MoE および Hybrid アーキテクチャ拡張

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid および次世代構造

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

最新のオープンウェイトモデル

Qwen3.5 397B

Sarvam 30B / 105B

参考記事

2件のコメント

Hacker Newsの意見

LLMアーキテクチャギャラリー

概要

主なモデル例

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

MoE および Hybrid アーキテクチャ拡張

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Hybrid および次世代構造

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

最新のオープンウェイトモデル

Qwen3.5 397B

Sarvam 30B / 105B

参考記事

関連記事

2件のコメント

Hacker Newsの意見