GPT-OSS vs. Qwen3 と GPT-2以降のLLMアーキテクチャ進化の詳細比較

(magazine.sebastianraschka.com)

27 ポイント投稿者 GN⁺ 2025-08-11 | まだコメントはありません。 | WhatsAppで共有

OpenAIがgpt-oss-20b/120bモデルをオープンウェイトとして公開したことで、2019年のGPT-2以来初めて、OpenAIの大規模な公開ウェイトLLMが登場した
gpt-ossモデルは、GPT-2と比べてDropout、Absolute Position Embedding、GELUなどを、RoPE、SwiGLU、RMSNormといった効率的な現代的手法へと置き換えながら進化している
Mixture-of-Experts（モジュール型エキスパート構造）、Sliding Window Attention、MXFP4量子化などの適用により、性能効率だけでなく単一GPU実行環境も大きく改善している
Qwen3との比較では、アーキテクチャの深さ・広さ、エキスパート数、attention bias、オープンソースライセンスなど、さまざまな差別化要素が存在することが確認できる
gpt-oss-20bは、最新ハードウェアに合わせた軽量化とreasoning effort調整機能により、実運用性と研究拡張性の両方を確保している

概要と主要な革新

OpenAIはgpt-oss-20b/120bを、2019年のGPT-2以来初めてオープンウェイトとして公開した
- 一般ユーザー向けGPU（最大16GB RAM）で20B、H100 80GBで120Bを実行可能にした
- MXFP4最適化により単一GPU実行を実現し、コンシューマー向けのアクセス性を拡大

GPT-2 → gpt-oss の主なアーキテクチャ変化

Dropoutの削除

GPT-2にはDropoutが含まれていたが、大規模データの単一epoch学習環境では、むしろ性能低下が確認されている
最近の研究結果でも、Dropoutを適用しない方がLLMのダウンストリームタスクでより優れた性能を示している

RoPE（回転位置埋め込み）の採用

従来の絶対位置埋め込みの代わりに、**RoPE（Rotary Position Embedding）**が主流として定着した
RoPEはクエリ/キーベクトルの角度を位置に応じて回転させることで、より柔軟で汎化された位置情報を提供する

SwiGLU活性化関数とGLUの導入

GEGLU/SwiGLUなどのGLU方式の導入により、従来の2-layer FFNより少ないパラメータで、より優れた表現能力を発揮する
Swishは計算面でもGELUと比べて効率的

Mixture-of-Experts（MoE）の適用

単一FFNの代わりに複数のエキスパート（Expert）ネットワークを活用し、各トークン生成時に一部のエキスパートのみを活性化する
モデルパラメータ数を大幅に増やしながらも推論効率（疎性）を維持し、学習容量を拡大している

Grouped Query Attention（GQA）の導入

従来のMulti-Head Attentionと比べてキー/バリュー共有により、メモリ使用量と計算量を削減する効果がある
性能低下なしに効率性を改善でき、大規模LLMで標準的に適用される傾向にある

Sliding Window Attentionの活用

一部レイヤーごとに全コンテキストではなく、直近128トークンに限定したSliding Windowで局所attentionを計算し、メモリ使用量を最小化する
性能低下なしで高速推論を実現し、大規模コンテキスト対応にも有効

RMSNormの採用

LayerNormの代わりにRMSNormを適用することで演算効率を向上
LayerNormの平均/分散計算の代わりにRMS（平均二乗平方根）を用い、GPU演算負荷を低減する

gpt-ossとQwen3の比較

規模/構造の違い

Qwen3はより深い（48個のTransformerブロック）構造だが、gpt-ossはより広い（embedding dimension、head数増加）構造となっている
深いモデルは柔軟だが学習が難しく、広いモデルは推論の並列化に有利（Gemma 2論文では、9Bモデル基準で広い方がわずかに優勢）

MoE構造の違い

gpt-oss-20b: 32個の大型エキスパート、4個のみ活性化
Qwen3: 多数の小型エキスパート、8個活性化
最近の流れでは、より多くの小型エキスパート構成が効果的という方向だが、gpt-ossは大型・少数構成を維持している（20B、120Bではエキスパート数とブロック数のみ調整）

Attention BiasとSinks

gpt-ossはattentionにbiasユニットを活用している（GPT-2時代以降では珍しい方式）
- ただしkey-projに対しては効果が小さいことが最近の研究で明らかになっている
attention sinkは、シーケンス開始位置に常にattendされる特殊トークンの概念だが、gpt-ossでは入力トークンを変更せず、learned bias logitの形で各headに追加適用している

ライセンスと公開範囲

Apache 2.0オープンソースライセンスで、商用利用や派生モデル構築が自由
ただし、真の意味でのオープンソース（学習コード、データセット公開）ではなく、あくまで「open weight」モデルである

その他の詳細と実運用

学習/最適化

gpt-ossは2.1M H100-hoursの計算リソースで学習された
英語中心で、STEM、コーディング、一般知識テキストに重点を置いている
事前学習+教師ありファインチューニング（Instruction）、RLベースのreasoning段階など、最新手法を適用

Reasoning Effortの調整

System promptを通じてreasoning effort（低/中/高）を設定し、回答の長さ・正確度を自動調整する
単純な作業は低effortで高速に、複雑なreasoningが必要なら高く設定可能

MXFP4量子化による単一GPU対応

MXFP4フォーマットの活用により、20Bでも16GB VRAM（最新GPU必須）で動作可能
120BはH100基準で80GBメモリがあれば単一GPUで実現可能で、分散処理が不要なため運用が簡単

ベンチマークと実用性

gpt-ossは学習の重点がreasoningに偏っており、一部の汎用知識質問では幻覚（hallucination）傾向がある
実用性の面では現存するオープンモデルの中でも上位であり、tool integrationと組み合わせることで実用性はさらに高まる見込み
実際の利用では正確性とreasoningのバランス、今後の他オープンモデルとの比較が必要

GPT-5との比較

gpt-oss-120bは、OpenAIの商用モデル（GPT-5）にベンチマーク基準で近い性能を示している
実環境での優位性は今後さらに見極める必要があるが、オープンウェイトで提供される最新LLMの中では強力な代替候補である
ベンチマークだけで実戦性能を完全に説明するには限界があり、今後の外部比較や研究に大きな機会を提供する

要約

gpt-ossシリーズの登場は、大規模オープンウェイトLLM分野に新たな基準を提示しており、最新LLMが導入してきた革新的アーキテクチャが実際にどのように実装・適用されているかを詳細に比較・分析している
Qwen3、GPT-5など他の最新モデルとの違いやトレンドを把握でき、実装/研究に役立つ最新動向を把握できる

GPT-OSS vs. Qwen3 と GPT-2以降のLLMアーキテクチャ進化の詳細比較

概要と主要な革新

GPT-2 → gpt-oss の主なアーキテクチャ変化

Dropoutの削除

RoPE（回転位置埋め込み）の採用

SwiGLU活性化関数とGLUの導入

Mixture-of-Experts（MoE）の適用

Grouped Query Attention（GQA）の導入

Sliding Window Attentionの活用

RMSNormの採用

gpt-ossとQwen3の比較

規模/構造の違い

MoE構造の違い

Attention BiasとSinks

ライセンスと公開範囲

その他の詳細と実運用

学習/最適化

Reasoning Effortの調整

MXFP4量子化による単一GPU対応

ベンチマークと実用性

GPT-5との比較

要約

関連記事

まだコメントはありません。