27 ポイント 投稿者 GN⁺ 2025-08-11 | 1件のコメント | WhatsAppで共有
  • OpenAIがgpt-oss-20b/120bモデルをオープンウェイトとして公開したことで、2019年のGPT-2以来初めて、OpenAIの大規模な公開ウェイトLLMが登場した
  • gpt-ossモデルは、GPT-2と比べてDropout、Absolute Position Embedding、GELUなどを、RoPE、SwiGLU、RMSNormといった効率的な現代的手法へと置き換えながら進化している
  • Mixture-of-Experts(モジュール型エキスパート構造)、Sliding Window Attention、MXFP4量子化などの適用により、性能効率だけでなく単一GPU実行環境も大きく改善している
  • Qwen3との比較では、アーキテクチャの深さ・広さ、エキスパート数、attention bias、オープンソースライセンスなど、さまざまな差別化要素が存在することが確認できる
  • gpt-oss-20bは、最新ハードウェアに合わせた軽量化とreasoning effort調整機能により、実運用性と研究拡張性の両方を確保している

概要と主要な革新

  • OpenAIはgpt-oss-20b/120bを、2019年のGPT-2以来初めてオープンウェイトとして公開した
    • 一般ユーザー向けGPU(最大16GB RAM)で20B、H100 80GBで120Bを実行可能にした
    • MXFP4最適化により単一GPU実行を実現し、コンシューマー向けのアクセス性を拡大

GPT-2 → gpt-oss の主なアーキテクチャ変化

Dropoutの削除

  • GPT-2にはDropoutが含まれていたが、大規模データの単一epoch学習環境では、むしろ性能低下が確認されている
  • 最近の研究結果でも、Dropoutを適用しない方がLLMのダウンストリームタスクでより優れた性能を示している

RoPE(回転位置埋め込み)の採用

  • 従来の絶対位置埋め込みの代わりに、**RoPE(Rotary Position Embedding)**が主流として定着した
  • RoPEはクエリ/キーベクトルの角度を位置に応じて回転させることで、より柔軟で汎化された位置情報を提供する

SwiGLU活性化関数とGLUの導入

  • GEGLU/SwiGLUなどのGLU方式の導入により、従来の2-layer FFNより少ないパラメータで、より優れた表現能力を発揮する
  • Swishは計算面でもGELUと比べて効率的

Mixture-of-Experts(MoE)の適用

  • 単一FFNの代わりに複数のエキスパート(Expert)ネットワークを活用し、各トークン生成時に一部のエキスパートのみを活性化する
  • モデルパラメータ数を大幅に増やしながらも推論効率(疎性)を維持し、学習容量を拡大している

Grouped Query Attention(GQA)の導入

  • 従来のMulti-Head Attentionと比べてキー/バリュー共有により、メモリ使用量と計算量を削減する効果がある
  • 性能低下なしに効率性を改善でき、大規模LLMで標準的に適用される傾向にある

Sliding Window Attentionの活用

  • 一部レイヤーごとに全コンテキストではなく、直近128トークンに限定したSliding Windowで局所attentionを計算し、メモリ使用量を最小化する
  • 性能低下なしで高速推論を実現し、大規模コンテキスト対応にも有効

RMSNormの採用

  • LayerNormの代わりにRMSNormを適用することで演算効率を向上
  • LayerNormの平均/分散計算の代わりにRMS(平均二乗平方根)を用い、GPU演算負荷を低減する

gpt-ossとQwen3の比較

規模/構造の違い

  • Qwen3はより深い(48個のTransformerブロック)構造だが、gpt-ossはより広い(embedding dimension、head数増加)構造となっている
  • 深いモデルは柔軟だが学習が難しく、広いモデルは推論の並列化に有利(Gemma 2論文では、9Bモデル基準で広い方がわずかに優勢)

MoE構造の違い

  • gpt-oss-20b: 32個の大型エキスパート、4個のみ活性化
  • Qwen3: 多数の小型エキスパート、8個活性化
  • 最近の流れでは、より多くの小型エキスパート構成が効果的という方向だが、gpt-ossは大型・少数構成を維持している(20B、120Bではエキスパート数とブロック数のみ調整)

Attention BiasとSinks

  • gpt-ossはattentionにbiasユニットを活用している(GPT-2時代以降では珍しい方式)
    • ただしkey-projに対しては効果が小さいことが最近の研究で明らかになっている
  • attention sinkは、シーケンス開始位置に常にattendされる特殊トークンの概念だが、gpt-ossでは入力トークンを変更せず、learned bias logitの形で各headに追加適用している

ライセンスと公開範囲

  • Apache 2.0オープンソースライセンスで、商用利用や派生モデル構築が自由
  • ただし、真の意味でのオープンソース(学習コード、データセット公開)ではなく、あくまで「open weight」モデルである

その他の詳細と実運用

学習/最適化

  • gpt-ossは2.1M H100-hoursの計算リソースで学習された
  • 英語中心で、STEM、コーディング、一般知識テキストに重点を置いている
  • 事前学習+教師ありファインチューニング(Instruction)、RLベースのreasoning段階など、最新手法を適用

Reasoning Effortの調整

  • System promptを通じてreasoning effort(低/中/高)を設定し、回答の長さ・正確度を自動調整する
  • 単純な作業は低effortで高速に、複雑なreasoningが必要なら高く設定可能

MXFP4量子化による単一GPU対応

  • MXFP4フォーマットの活用により、20Bでも16GB VRAM(最新GPU必須)で動作可能
  • 120BはH100基準で80GBメモリがあれば単一GPUで実現可能で、分散処理が不要なため運用が簡単

ベンチマークと実用性

  • gpt-ossは学習の重点がreasoningに偏っており、一部の汎用知識質問では幻覚(hallucination)傾向がある
  • 実用性の面では現存するオープンモデルの中でも上位であり、tool integrationと組み合わせることで実用性はさらに高まる見込み
  • 実際の利用では正確性とreasoningのバランス、今後の他オープンモデルとの比較が必要

GPT-5との比較

  • gpt-oss-120bは、OpenAIの商用モデル(GPT-5)にベンチマーク基準で近い性能を示している
  • 実環境での優位性は今後さらに見極める必要があるが、オープンウェイトで提供される最新LLMの中では強力な代替候補である
  • ベンチマークだけで実戦性能を完全に説明するには限界があり、今後の外部比較や研究に大きな機会を提供する

要約

  • gpt-ossシリーズの登場は、大規模オープンウェイトLLM分野に新たな基準を提示しており、最新LLMが導入してきた革新的アーキテクチャが実際にどのように実装・適用されているかを詳細に比較・分析している
  • Qwen3、GPT-5など他の最新モデルとの違いやトレンドを把握でき、実装/研究に役立つ最新動向を把握できる

1件のコメント

 
GN⁺ 2025-08-11
Hacker Newsの意見
  • ローカルでテストしたところ、Qwen3のほうがはるかに優れていることを確認した。32Bパラメータ版ではプロンプトをほぼ完璧に守り、出力も自然だった。一方、simplebenchのgpt-oss(120B)は論理パズルで良くない性能を示した。この差は、学習方法、モデル次元、そして少数の大型エキスパート vs 多数の小型エキスパートといった違いに由来すると考えている

    • Qwen3 32Bは、すべてのパラメータを常に使うデンスモデル。GPT OSS 20Bは、一部だけを使うスパースMoE(Expert of Experts)モデルで、1回あたり約3.6Bしか使わない。このため、デンス20Bモデルより高速で、3.6Bモデルより賢い。公平な比較ならデンス8Bモデルと比べるべきで、Qwen Coder 30B A3Bのようなモデルも良い比較対象になる
    • 私の考えでは、こうした差はモデルアーキテクチャよりも、データとトレーニングパイプラインの影響のほうがはるかに大きい。gpt-ossがPhiスタイルの合成データセットだけを活用し、主にベンチマークゲームに集中したという話があるが、その根拠は十分に説得力があるように見える
    • MoEの期待性能の式は sqrt(アクティブヘッド数 * 総パラメータ数) である。たとえば sqrt(120*5) ~= 24 なので、GPT-OSS 120Bは実際には24B級の性能と、はるかに小さいモデル級の速度を提供している
    • qwen3は遅いほうだ。実際に使ってみると動作はするが、速度が遅く、機能も不足している印象がある
  • Sebastian Raschkのブログ記事は宝のような情報源だ。get-ossとqwen3モデルをOllama、LM Studioでローカル利用し、大型モデルは商用APIを使っている。get-ossはプロンプトに多くのコンテキスト情報を渡すと良い結果を出し、qwen3はとにかく素晴らしい。3年前まではニューラルネット、GAN、RNN、LSTMなどの機械学習を実際に実装できる程度にはよく理解していたが、最近のLLMは自分で開発できるほど簡単ではなくて残念だ。Sebastian Raschkのも見ているが、たぶん最後まで読み切れないと思う

    • 信じられないほど速く変化する分野で、Sebastian Raschkがいつも最新情報を簡潔にまとめてくれるので、本当に助かっている
  • ローカルの3090 GPUでqwen3 coder instruct 30b-a3b exl3 q6モデルを回して、サンプルページの作成、サーバー起動、残っているサーバーの検出、それを自分で停止し(権限要求まで受けて)、再起動後にipを自動で見つけてブラウザで開く、という流れを試してみた。もはや単なるデモではなく、ジュニアやインターンにも実質的に役立つレベルの支援になっている

  • 私の経験では、qwen3-coderが圧倒的に優れている。gpt-oss:20bも入れてみたが、コード要約をさせるとqwen3は数秒で結果が出るのに、gpt-ossは5分以上何もせず、中断した。だからqwen3だけを使っている。もし欲しい答えが得られなければ、検索エンジンやPerplexityを使う。10GB 3080、Ryzen 3600x、32GB RAMを使っている。Qwen3-coderは今まで使った中で最高だ

    • Qwen3 coder 480BはSonnet 4に匹敵するほど優秀だ。このおかげで、中国製モデルが米国ベースのモデルを近いうちに追い越すかもしれないと初めて実感した(特にコーディング分野で)
    • gpt-oss 20Bは10GBに載らないことが原因だった可能性がある
    • 私もgpt-oss-20bを簡単に使っているが、短いプロンプト(短文)では無限ループに陥ることがある。llama.cppで動かす際に反復ペナルティの値を小さくすると、そうした問題はなかった(主にdiff分析に1日数回程度使っている)。ただし、私が運が良いだけかもしれない
    • もしかしてagenticな方式(複数回の質問と応答をやり取りする自動化)で使っているのか、それともコピーして「このコードを書いて」といった単一の入力/出力だけで使っているのか気になる。最新の公開モデルがagenticなコーディングでどの程度商用モデルに追いついたのか知りたい
  • 最近のオープンウェイトLLMはアーキテクチャがあまりに似通っていて、革新がデータやRLの側でしか起きていない点が興味深い。昔の大規模ML組織ではアーキテクチャ調整が最重要だったが、現実は違って見える

    • LLM規模ではハイパーパラメータ調整そのものが不可能だと思う。コストが高すぎるので、複数のアーキテクチャを基本的なテストだけして、1つを選び、データとRLで最適化する形になる
    • 良い指摘だ。LLMのおかげで、リソースさえ十分なら誰でも挑戦できるようになった。アーキテクチャはかなり調整に強く、十分な計算資源とデータを投入すれば、スケーリング則に反していてもそこそこ良いモデルを作れる(Llama 3が以前示したように)
  • Qwen3 4Bモデルをローカルで本当にうまく使っている。オンラインモデルはほとんど使わず、Web検索もずっと的確になった。完全には信用していないが、全体としては悪くない。こうしたオープンソースモデルが、ローカル知識自動化の構図を変えると確信している

    • Qwenが直接より良い検索パラメータを案内してくれるのか、それともQwenが実際にWeb検索までしてくれるのか気になる
  • LM Arenaで、純粋なTransformerベースではないモデルの中で最も高性能なのはJambaだ(Transformerとstate space modelのハイブリッド構造、96位)。Tencentのhunyuan-turbosも同じくハイブリッドで、22位だ。arxiv論文を参照

  • LLMは通常、非常に巨大なデータセットをちょうど1回だけ(単一エポック)学習する。これは、複数回の反復学習(数百エポック)を前提としていたDropout方式とは異なる環境だ

    • これはよく知られた事実だ。GPT-3論文のTable 2.2を見ればよい
  • 大規模研究所が公開するモデルが、さらに追加学習を行えばどれほど改善できるのか気になる。たとえばGPT-OSSが210万時間学習したなら、それを2倍にしたらどの程度改善するのか知りたい

    • GPT-4.5は実際には、より大きなGPT-5として企画され、より多くのデータを学習したものだったのかもしれない。ただ、コストが高すぎて大規模商用化はできず、RL適用版も見られなかったのが残念だ
    • GPT-5で活用されたRLベースのトレーニングの先端手法も、無限にスケールするわけではないことがすでに明らかになっている
  • サイトにアクセスすると「接続は安全ではありません」というエラーメッセージが出る。「magazine.sebastianraschka.com はHSTSを使用しているため、現在アクセスできません」と表示される。Chrome最新版、Ubuntu環境だ