OpenAI、大規模オープンウェイト言語モデルを公開
(openai.com)- OpenAIが初めて**大規模オープンウェイト言語モデル(gpt-oss)**を公開
- gpt-oss-120bとgpt-oss-20bの2モデルを提供し、強力な性能と幅広いデバイス対応を強調
- Apache 2.0ライセンスにより、商用利用・カスタマイズ・自由な配布が可能
- 安全性のためにトレーニングと外部専門家レビュー、包括的な安全テストの手順を導入
- Hugging Face、GitHubなどでモデルを直接ダウンロードでき、ファインチューニング・デプロイ・カスタマイズ関連のリソースとPlaygroundも提供
OpenAIのオープンモデル
- OpenAIはすべてのユースケースに合わせてカスタム可能で、どこからでも実行できる大規模オープンウェイト推論モデル(gpt-oss)を公開
- Hugging FaceおよびGitHubでモデルファイルを直接ダウンロードでき、WebベースのPlaygroundでデモを体験可能
- Apache 2.0ライセンスで配布され、コピーレフトや特許侵害の懸念なしに自由に商用活用、カスタマイズ、配布可能
- gpt-oss-120b: データセンター、高性能デスクトップおよびノートパソコン向けの大型モデル
- gpt-oss-20b: ほとんどのデスクトップおよびノートパソコンで動作する中型モデル
主な特徴
-
エージェント作業の最適化
- ツール利用と指示遵守が強みで、Web検索・Pythonコード実行などのエージェント用途に適している
-
カスタマイズとファインチューニング
- reasoning_effort(推論難易度)などのハイパーパラメータ調整が可能
- 全パラメータファインチューニングによる高度なカスタマイズをサポート
-
思考の流れ(Chain-of-Thought)公開
- モデルの**推論過程の展開(思考の流れ)**をすべて確認でき、デバッグと信頼性評価が容易
-
Playground提供
- 開発者と研究者なら誰でもブラウザ上でモデル性能を体験できるPlaygroundをサポート
モデル性能
- gpt-oss-120bとgpt-oss-20bは、OpenAIの商用モデル(OpenAI o3、o4-mini)と複数の主要ベンチマークで性能を直接比較
- 各モデルの推論・知識、競技数学などさまざまな領域における成績が具体的に公開
- 一部の項目ではOpenAIの商用モデルに近い結果を示すほか、特定のテストでは優れた結果を示している
主要ベンチマーク性能の詳細
-
推論と知識
- MMLU(Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → 大規模商用モデルにはやや及ばないが、オープンモデルとしては非常に優れた総合推論性能を示す
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → オープンモデルであるにもかかわらず、商用モデルとほぼ同等の高度な知識ベースQA性能を達成
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → 難易度の高い評価では商用モデルに比べ低いが、20bとo4-miniはほぼ同等の結果
- MMLU(Massive Multitask Language Understanding)
-
競争数学(AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → 2024年版ベースでは商用モデルより高いスコアを記録
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → 数学分野ではOpenAIの商用モデルを上回る数値も見られる
- AIME 2024
-
総合解釈
- gpt-ossシリーズは特に数学、論理、知識分野で高い性能を実証
- 商用モデルとの差は大きくなく、実サービスやエンジニアリング用途でも活用可能性が高い
- 大規模オープンモデルとして、研究開発、エージェント、カスタマイズ環境で十分に競争力がある選択肢
安全性およびテスト
- すべてのモデルに対して厳格な安全トレーニングと評価が適用
- OpenAIの安全性準備フレームワークに従い、悪意のあるファインチューニングへの耐性も別途テスト
- 外部安全専門家と協力して、オープンモデル向け安全基準を整備
- Hugging FaceとGitHubでモデルをダウンロードして使用可能
1件のコメント
Hacker Newsでの意見
核心を突けていない気がする
gpt-oss:20bはMMLUで上位10位のモデルで、Gemini-2.5-Proのすぐ後ろ。
昨年型のMacBook Air M3で直接実行した。
ノートPCとPixel 9 Proでさまざまなローカルモデルを試しているが、このレベルにもうすぐ到達すると思っていたのに、すでに今日もう達成した状態だ。
最新モデルをノートPCで電力代程度のコスト(ほぼ無料)で動かせる。
月200ドルのサブスク料金やクラウド費用も不要になりそうだ。
本当に驚く。
20bモデルを実際に動かしてみたが、ラベルを変えただけの「岸から岸へ渡る」問題すら解決できなかった。
SOTAからは遠く、QwQ-32bのような一部ローカルモデルよりも劣る
ローカルAIを最も多用する層が誰なのか、ずっと考えている。
ハードウェアはあるが有料モデルを避けたい学生?
あるいは価格に敏感で無料のコーディングを望む開発者?
個人的には、ローカルモデルは画像からデータを抽出することすらできず、はたまたよくガラクタを喋る(Qwen 2.5 VIの場合)。
ローカル/小型モデルの品質とデバイス性能がこれからも向上してほしい。
正直、「できるからやる」気分で使っている。
Mac Studioを複数台つなげたり、良いGPUまで買い足してまで、なぜそれをやるのか本当に不思議だ。
exoのような分散コンピュートツールもアイデアは素晴らしいが、まさにそこまで必要な緊急ケースがどれだけあるのか気になる
Jevonsの逆説(資源が節約されるほどむしろ多く使うようになる逆説)を受け入れて、結局「冷蔵庫エージェント」が自己意識をシミュレーションしてまた水が尽きるまで活用が爆発するだろうという予感がある。
最新のオープンウェイトモデルについてどこまで把握しているのか気になる。
数時間いじってみたが、Qwen3-30B-A3Bに比べるとずっと不足していた。
特に世の中の知識が顕著に不足している
実際に「水を使い切る」のは推論ではなくトレーニングだ
モデルカードに興味がある人のために共有 PDFリンク
紹介されたモデル構造を、Deepseek、Qwen、GLM、Kimiなどの主要なオープンウェイトモデルと比較している。
技術的にはただ「なるほど」と感じるだけ。
GPT-3時代の古い最適化(banded window spars、128トークン)とdense attentionパターンを交互に適用している。
RoPE + YaRNの組み合わせで131Kコンテキストウィンドウを採用。
DeepseekのMulti-head Latent Attentionや、他のさまざまなGQAの進化点は未適用。
120B(正確には116.8B、アクティブ5.1B)モデルが128個のexpertをtop-4ルーティングで運用。
Gated SwiGLU activationが特に言及される一方、Deepseekのshared/routed expertアーキテクチャやQwenの負荷分散戦略などは欠けている。
全パラメータの90%以上を4.25ビット/パラメータ(MXFP4フォーマット)で量子化して、120Bモデルを単一80GB GPUに収める。
それでもUnslothはすでに1.58ビット量子化を達成している。
全体として、エージェント行動と推論のためのトレーニングは確かに優れているが、技術的進歩は「まだ内側に隠している」感覚だ
ここでの秘密の情報源は恐らくdistillationだろうと推測。
インターネットデータの代わりにo3などSOTAモデルのプロンプト出力で作成した高品質なsyntheticデータセットを事前学習で使うと、小型モデルの性能が最大化されることは既に研究で明らかになっている。
RLを小型モデルに後処理として適用するよりはるかに効率的(小型モデルはベースラインが低く、RLは非効率)
OpenAIはattention構造以外の部分で本当の技術的進歩があるとも言える。
構造面では本当に「秘密の切り札はなく、君たちは事前/事後学習ができていない」またはそう信じさせたいようだ。
モデルはかなりsparsityが高く、32:1である。
MXFP4リリースを一種の“贈り物”として見る。
それは彼らの大規模なコスト最適化から生まれた結果であり、オープンソース側では強みになる。
Unslothの1.58ビット量子化も驚異的だが、フル量子化と比べて損失が明確なので、ほとんどのLLM利用では精度優先。
実際の本番環境でfrontierモデルを低bit量子化で回す会社はほとんどない。
OpenAIがprodでこれを適用するなら、かなり興味深い試みになる。
同様の分析はgithubレポでも可能です。
attention sink(特定トークンに注意を集める機構)も適用されている。
ただし別トークンではなく、attention softmax用の追加学習ロジットとして実装されている
初期印象をまとめ、数時間かけてまとめた 詳細レビュー
TLDR: OpenAIがオープンウェイトの最高モデルタイトルを中国のAIラボから再び取り戻したようだ。
独立ベンチマークがどう出るか楽しみ。
20BモデルがMacノートでRAM 15GB未満で動作
streamlitダッシュボードをMACD、RSI、MA(200)指標で作った。
qwen3-coder-30b 4bit mlxは最新データまで見事に処理し、完璧に動作するダッシュボードを生成。
gpt-oss-20b mxfp4にはdatetime importが欠けており、修正しても開始日が2020年8月で止まりデータがない。
date調整後もupdate関数でエラーが発生。
MacBookでモデルを使うとき、コンテキストウィンドウを短くしすぎて実用性が落ちるが、
その部分をどう解決したのか気になる
ツールコール機能がどの程度うまく動くのか個人的に気になる。
数時間回してもあまりうまくいかなかった。
それでも期待できるモデルです。
20BモデルがRAM15GB未満なので、私もすぐに実際に動かしてみる予定。
TPS(1秒あたりのトークン生成数)とプロセッサ情報が知りたい
o3級の性能に近い20Bモデルを24GB Mac Miniで動かせる時代が来た
ほんの少し前までは、こうした最新モデルをローカルやモバイルで走らせるのは5年後のミッションのように思われていたが、次世代のスマートフォンでも可能になりそうだ。
ハードウェア制約が厳しくてもQwenのようなモデルはかなりの性能を示す。
今後新しいオープンソースモデルがどう比較されるか、ベンチマーク結果が楽しみだ
Llama公開当時の安全性論争を思い出す。
いまや96GB(V)RAMのMacBookで120Bパラメータのフロンティアモデルを動かせる。
MLX quantを入手できれば、GLM-4.5-airと比べてみたいと思う
正直このモデルにはかなり期待していたのだが、localllamaでの評価結果では
120Bモデルはコーディング面でqwen 3 coder、glm45 air、grok 3に及ばなかった。
reddit討論
Mac Miniで(量子化済み)ミディアムサイズモデルを実際に動かした場合、
応答速度が5トークン/秒か、本当に使えるレベルか気になる
最近、ローカルモデルがウェブブラウジングまで行う最も簡単な方法は何か気になる
長期的にはオープンモデルが勝利すると見ている。
AnthropicもOSSモデルで研究を実施し、中国はオープンモデルを素早く反復改良している。
米国側もN-1(一世代前)モデルは1〜3世代は継続してオープンウェイトで公開するだろうと予測。
最新世代モデルをOSSで開放するにはコストが高すぎる。
政府支援やStargateの電力イノベーションがないと限界がある。
N-1モデルは価値下落が非常に速いので、OSSとして配布して特化・活用事例を吸収する方向が長期的に価値がある。
市場占有率喪失などのリスクはあるが、公開された研究結果を集約すれば次世代開発速度を大きく上げる余地がある。
今後は非常に多くの小型OSSモデルが登場する。
OSSリリースを中心にローカルで発展させ、軽量デバイスでよく動く特化モデルが次々に出てくる見込み。
エージェント中心の未来ではドメイン別に特化・蒸留されたモデルが溢れそうだ。
皆がAGI/SGIに向けて走っており、その過程のモデルは市場占有率とデータ活用のための中間段階。
AGI/SGIが実現すれば、その真の価値は科学、エンジニアリング、全分野の革新にある。
Anthropicの研究でQwen、LlamaなどのOSSモデルを活用している
Anthropicが必ずしもオープンモデルだけで実験する必要はない。
単に追従研究者が再現可能になるように結果をOSSとして残すだけだ。
「オープンモデルが最終的に勝つ」という言葉には前提がある。
勝利の定義自体が難しい。
もしそうでないなら
参考: What failure looks like, AGI Manhattan Project? Max Tegmarkの寄稿
産業は堅牢なファウンデーションモデルにツール、データベース、プロセスを繋いで活用する方向へ向かっているようだ。
その意味で、OSSモデルが十分に市場を取る可能性はあると思う。
ただし、数多くの特化モデルを個別に学習・管理して実際にどれだけの実質的価値が出るかはよくわからない
AGI/SGI到達は単発イベントとして「達成」するものではない。
性能は少しずつ改善されるのみ。
推論コストが十分に安ければ真の活用が可能。
利益や革新を目指すならどの方向が良いのか気になる。
Isomorphic Labsのような事例がまさにモデルだ(すでに存在し、ここに人員が集中)。
オープンモデルが本当に長期勝者なら
フロンティアラボの立場では、"どれだけ早く、どれだけ秘密を含めて"OSSで公開するのが合理的かは検討が残る。
実務・運用・投資の動機が異なり、国家や人類全体とは方向性がズレる
Pythonでのモデル推論はRustで書かれたharmony[1]を利用し、トークナイズはtiktoken[2]、Codex[3]もRustで書かれている。
OpenAIは推論パイプラインでRust採用を増やしている。
harmony, tiktoken, codex
Rustを主に使うエンジニアとしてこの流れはとても歓迎される
スタックからPythonが減るのはポジティブ
ほんの数日で最高モデルが公開されたという意味なのか?
戦略的にみると、これを公開することはすぐにより革新的な発表が来る予兆だ。
すぐ公開しないにしても賢明な戦略だ。
Qwenのような高性能オープンウェイトモデルの圧力が大きいため。
そうでなければこの分野全体で後れを取ることになる。
ライセンス、技術サポート、エージェント、ブランド認知度、市場占有など将来の機会も大きい。
この種のモデルを上手く使うと、より大きいモデルでOpenAIをより見つけやすくなる。
木曜公開説
GPT-5公開日ベッティング
GPT-5は今週木曜公開
公開がなければ既存の有料商品の価値が低下する。
ただし、オープンモデル公開が遅くて商用モデルに脅威となるほど被害を受けたことはまだないと判断。
ここ1週間前後で、すでに何度もGPT-5がimminent(差し迫る)という兆候を見ていた
o3級性能に近い20Bモデルを見られること自体がまったく別世界だ
1年前まではこのような小型モデルがこの知能を持つとは不可能と思っていた。
個人的にさらに胸躍るのは、10億パラメータを蒸留して100億パラメータモデルを作り、ほぼ損失なしで『魔法』を移植することだ。
例えばClaude 4 Opus級の知能を10Bモデルに詰め込み、2,000トークン/秒でローカルで実行することを想像すれば、ソフトウェア開発のやり方が完全に変わる。
実際は20Bモデルではなく、MoEなのでアクティブパラメータは3.6B。
性能も実際にはo3級ではない。
メトリクスはいつも現実と乖離があるため、実際に試してみて品質を確認する必要がある。
10B × 2,000 t/sは20,000GB/sのメモリ帯域が必要。
Appleのハードウェアは1,000GB/s程度が限界
少し話はそれるが、Ollamaは本当に素晴らしいと思う。
モデル検索2秒、ダウンロード1分で即使用可能。
チームにkudos!
実はOllamaはOpenAIの支援を受けて先に開発されていた。
Ollama公式ブログ参照
LM Studioもまったく同じくらい簡単。
本質はllama.cppとHuggingFace側で配布が全部やってくれること
Ollamaがクローズドソースに切り替えるという話を見たことがある。
関連reddit討論記事
gpt-oss:20bを薄いproxyとOllamaでclaude codeにローカル連携させるのに成功。
面白いがprefillのため速度が遅すぎて実際には使えない。
ツール使用1回あたり2〜3分、10〜20回で30〜60分かかる。
server.py(1,000行)にツール定義+claudeコンテキスト3万トークン程度、入力ファイルを読むと5万トークンまで増える。
最適化の余地は明らかにある。
Ollamaが/v1/completions呼び出し間でkv-cacheをサポートしているかは分からないが、あれば速度向上に役立つはず
以下のように実行する。 Web UIはlocalhost:8080(OpenAI互換APIを提供)