- OpenAIが初めて**大規模オープンウェイト言語モデル(gpt-oss)**を公開
- gpt-oss-120bとgpt-oss-20bの2モデルを提供し、強力な性能と幅広いデバイス対応を強調
- Apache 2.0ライセンスにより、商用利用・カスタマイズ・自由な配布が可能
- 安全性のためにトレーニングと外部専門家レビュー、包括的な安全テストの手順を導入
- Hugging Face、GitHubなどでモデルを直接ダウンロードでき、ファインチューニング・デプロイ・カスタマイズ関連のリソースとPlaygroundも提供
OpenAIのオープンモデル
- OpenAIはすべてのユースケースに合わせてカスタム可能で、どこからでも実行できる大規模オープンウェイト推論モデル(gpt-oss)を公開
- Hugging FaceおよびGitHubでモデルファイルを直接ダウンロードでき、WebベースのPlaygroundでデモを体験可能
- Apache 2.0ライセンスで配布され、コピーレフトや特許侵害の懸念なしに自由に商用活用、カスタマイズ、配布可能
- gpt-oss-120b: データセンター、高性能デスクトップおよびノートパソコン向けの大型モデル
- gpt-oss-20b: ほとんどのデスクトップおよびノートパソコンで動作する中型モデル
主な特徴
-
エージェント作業の最適化
- ツール利用と指示遵守が強みで、Web検索・Pythonコード実行などのエージェント用途に適している
-
カスタマイズとファインチューニング
- reasoning_effort(推論難易度)などのハイパーパラメータ調整が可能
- 全パラメータファインチューニングによる高度なカスタマイズをサポート
-
思考の流れ(Chain-of-Thought)公開
- モデルの**推論過程の展開(思考の流れ)**をすべて確認でき、デバッグと信頼性評価が容易
-
Playground提供
- 開発者と研究者なら誰でもブラウザ上でモデル性能を体験できるPlaygroundをサポート
モデル性能
- gpt-oss-120bとgpt-oss-20bは、OpenAIの商用モデル(OpenAI o3、o4-mini)と複数の主要ベンチマークで性能を直接比較
- 各モデルの推論・知識、競技数学などさまざまな領域における成績が具体的に公開
- 一部の項目ではOpenAIの商用モデルに近い結果を示すほか、特定のテストでは優れた結果を示している
主要ベンチマーク性能の詳細
-
推論と知識
- MMLU(Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → 大規模商用モデルにはやや及ばないが、オープンモデルとしては非常に優れた総合推論性能を示す
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → オープンモデルであるにもかかわらず、商用モデルとほぼ同等の高度な知識ベースQA性能を達成
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → 難易度の高い評価では商用モデルに比べ低いが、20bとo4-miniはほぼ同等の結果
-
競争数学(AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → 2024年版ベースでは商用モデルより高いスコアを記録
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → 数学分野ではOpenAIの商用モデルを上回る数値も見られる
-
総合解釈
- gpt-ossシリーズは特に数学、論理、知識分野で高い性能を実証
- 商用モデルとの差は大きくなく、実サービスやエンジニアリング用途でも活用可能性が高い
- 大規模オープンモデルとして、研究開発、エージェント、カスタマイズ環境で十分に競争力がある選択肢
安全性およびテスト
- すべてのモデルに対して厳格な安全トレーニングと評価が適用
- OpenAIの安全性準備フレームワークに従い、悪意のあるファインチューニングへの耐性も別途テスト
- 外部安全専門家と協力して、オープンモデル向け安全基準を整備
まだコメントはありません。