27 ポイント 投稿者 GN⁺ 2025-08-11 | まだコメントはありません。 | WhatsAppで共有
  • OpenAIがgpt-oss-20b/120bモデルをオープンウェイトとして公開したことで、2019年のGPT-2以来初めて、OpenAIの大規模な公開ウェイトLLMが登場した
  • gpt-ossモデルは、GPT-2と比べてDropout、Absolute Position Embedding、GELUなどを、RoPE、SwiGLU、RMSNormといった効率的な現代的手法へと置き換えながら進化している
  • Mixture-of-Experts(モジュール型エキスパート構造)、Sliding Window Attention、MXFP4量子化などの適用により、性能効率だけでなく単一GPU実行環境も大きく改善している
  • Qwen3との比較では、アーキテクチャの深さ・広さ、エキスパート数、attention bias、オープンソースライセンスなど、さまざまな差別化要素が存在することが確認できる
  • gpt-oss-20bは、最新ハードウェアに合わせた軽量化とreasoning effort調整機能により、実運用性と研究拡張性の両方を確保している

概要と主要な革新

  • OpenAIはgpt-oss-20b/120bを、2019年のGPT-2以来初めてオープンウェイトとして公開した
    • 一般ユーザー向けGPU(最大16GB RAM)で20B、H100 80GBで120Bを実行可能にした
    • MXFP4最適化により単一GPU実行を実現し、コンシューマー向けのアクセス性を拡大

GPT-2 → gpt-oss の主なアーキテクチャ変化

Dropoutの削除

  • GPT-2にはDropoutが含まれていたが、大規模データの単一epoch学習環境では、むしろ性能低下が確認されている
  • 最近の研究結果でも、Dropoutを適用しない方がLLMのダウンストリームタスクでより優れた性能を示している

RoPE(回転位置埋め込み)の採用

  • 従来の絶対位置埋め込みの代わりに、**RoPE(Rotary Position Embedding)**が主流として定着した
  • RoPEはクエリ/キーベクトルの角度を位置に応じて回転させることで、より柔軟で汎化された位置情報を提供する

SwiGLU活性化関数とGLUの導入

  • GEGLU/SwiGLUなどのGLU方式の導入により、従来の2-layer FFNより少ないパラメータで、より優れた表現能力を発揮する
  • Swishは計算面でもGELUと比べて効率的

Mixture-of-Experts(MoE)の適用

  • 単一FFNの代わりに複数のエキスパート(Expert)ネットワークを活用し、各トークン生成時に一部のエキスパートのみを活性化する
  • モデルパラメータ数を大幅に増やしながらも推論効率(疎性)を維持し、学習容量を拡大している

Grouped Query Attention(GQA)の導入

  • 従来のMulti-Head Attentionと比べてキー/バリュー共有により、メモリ使用量と計算量を削減する効果がある
  • 性能低下なしに効率性を改善でき、大規模LLMで標準的に適用される傾向にある

Sliding Window Attentionの活用

  • 一部レイヤーごとに全コンテキストではなく、直近128トークンに限定したSliding Windowで局所attentionを計算し、メモリ使用量を最小化する
  • 性能低下なしで高速推論を実現し、大規模コンテキスト対応にも有効

RMSNormの採用

  • LayerNormの代わりにRMSNormを適用することで演算効率を向上
  • LayerNormの平均/分散計算の代わりにRMS(平均二乗平方根)を用い、GPU演算負荷を低減する

gpt-ossとQwen3の比較

規模/構造の違い

  • Qwen3はより深い(48個のTransformerブロック)構造だが、gpt-ossはより広い(embedding dimension、head数増加)構造となっている
  • 深いモデルは柔軟だが学習が難しく、広いモデルは推論の並列化に有利(Gemma 2論文では、9Bモデル基準で広い方がわずかに優勢)

MoE構造の違い

  • gpt-oss-20b: 32個の大型エキスパート、4個のみ活性化
  • Qwen3: 多数の小型エキスパート、8個活性化
  • 最近の流れでは、より多くの小型エキスパート構成が効果的という方向だが、gpt-ossは大型・少数構成を維持している(20B、120Bではエキスパート数とブロック数のみ調整)

Attention BiasとSinks

  • gpt-ossはattentionにbiasユニットを活用している(GPT-2時代以降では珍しい方式)
    • ただしkey-projに対しては効果が小さいことが最近の研究で明らかになっている
  • attention sinkは、シーケンス開始位置に常にattendされる特殊トークンの概念だが、gpt-ossでは入力トークンを変更せず、learned bias logitの形で各headに追加適用している

ライセンスと公開範囲

  • Apache 2.0オープンソースライセンスで、商用利用や派生モデル構築が自由
  • ただし、真の意味でのオープンソース(学習コード、データセット公開)ではなく、あくまで「open weight」モデルである

その他の詳細と実運用

学習/最適化

  • gpt-ossは2.1M H100-hoursの計算リソースで学習された
  • 英語中心で、STEM、コーディング、一般知識テキストに重点を置いている
  • 事前学習+教師ありファインチューニング(Instruction)、RLベースのreasoning段階など、最新手法を適用

Reasoning Effortの調整

  • System promptを通じてreasoning effort(低/中/高)を設定し、回答の長さ・正確度を自動調整する
  • 単純な作業は低effortで高速に、複雑なreasoningが必要なら高く設定可能

MXFP4量子化による単一GPU対応

  • MXFP4フォーマットの活用により、20Bでも16GB VRAM(最新GPU必須)で動作可能
  • 120BはH100基準で80GBメモリがあれば単一GPUで実現可能で、分散処理が不要なため運用が簡単

ベンチマークと実用性

  • gpt-ossは学習の重点がreasoningに偏っており、一部の汎用知識質問では幻覚(hallucination)傾向がある
  • 実用性の面では現存するオープンモデルの中でも上位であり、tool integrationと組み合わせることで実用性はさらに高まる見込み
  • 実際の利用では正確性とreasoningのバランス、今後の他オープンモデルとの比較が必要

GPT-5との比較

  • gpt-oss-120bは、OpenAIの商用モデル(GPT-5)にベンチマーク基準で近い性能を示している
  • 実環境での優位性は今後さらに見極める必要があるが、オープンウェイトで提供される最新LLMの中では強力な代替候補である
  • ベンチマークだけで実戦性能を完全に説明するには限界があり、今後の外部比較や研究に大きな機会を提供する

要約

  • gpt-ossシリーズの登場は、大規模オープンウェイトLLM分野に新たな基準を提示しており、最新LLMが導入してきた革新的アーキテクチャが実際にどのように実装・適用されているかを詳細に比較・分析している
  • Qwen3、GPT-5など他の最新モデルとの違いやトレンドを把握でき、実装/研究に役立つ最新動向を把握できる

まだコメントはありません。

まだコメントはありません。