7 ポイント 投稿者 GN⁺ 2025-08-06 | まだコメントはありません。 | WhatsAppで共有
  • OpenAIが初めて**大規模オープンウェイト言語モデル(gpt-oss)**を公開
  • gpt-oss-120bgpt-oss-20bの2モデルを提供し、強力な性能と幅広いデバイス対応を強調
  • Apache 2.0ライセンスにより、商用利用・カスタマイズ・自由な配布が可能
  • 安全性のためにトレーニングと外部専門家レビュー、包括的な安全テストの手順を導入
  • Hugging Face、GitHubなどでモデルを直接ダウンロードでき、ファインチューニング・デプロイ・カスタマイズ関連のリソースとPlaygroundも提供

OpenAIのオープンモデル

  • OpenAIはすべてのユースケースに合わせてカスタム可能で、どこからでも実行できる大規模オープンウェイト推論モデル(gpt-oss)を公開
  • Hugging FaceおよびGitHubでモデルファイルを直接ダウンロードでき、WebベースのPlaygroundでデモを体験可能
  • Apache 2.0ライセンスで配布され、コピーレフトや特許侵害の懸念なしに自由に商用活用、カスタマイズ、配布可能
  • gpt-oss-120b: データセンター、高性能デスクトップおよびノートパソコン向けの大型モデル
  • gpt-oss-20b: ほとんどのデスクトップおよびノートパソコンで動作する中型モデル

主な特徴

  • エージェント作業の最適化

    • ツール利用と指示遵守が強みで、Web検索・Pythonコード実行などのエージェント用途に適している
  • カスタマイズとファインチューニング

    • reasoning_effort(推論難易度)などのハイパーパラメータ調整が可能
    • 全パラメータファインチューニングによる高度なカスタマイズをサポート
  • 思考の流れ(Chain-of-Thought)公開

    • モデルの**推論過程の展開(思考の流れ)**をすべて確認でき、デバッグと信頼性評価が容易
  • Playground提供

    • 開発者と研究者なら誰でもブラウザ上でモデル性能を体験できるPlaygroundをサポート

モデル性能

  • gpt-oss-120bとgpt-oss-20bは、OpenAIの商用モデル(OpenAI o3、o4-mini)と複数の主要ベンチマークで性能を直接比較
  • 各モデルの推論・知識、競技数学などさまざまな領域における成績が具体的に公開
  • 一部の項目ではOpenAIの商用モデルに近い結果を示すほか、特定のテストでは優れた結果を示している

主要ベンチマーク性能の詳細

  • 推論と知識

    • MMLU(Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → 大規模商用モデルにはやや及ばないが、オープンモデルとしては非常に優れた総合推論性能を示す
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → オープンモデルであるにもかかわらず、商用モデルとほぼ同等の高度な知識ベースQA性能を達成
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → 難易度の高い評価では商用モデルに比べ低いが、20bとo4-miniはほぼ同等の結果
  • 競争数学(AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • 2024年版ベースでは商用モデルより高いスコアを記録
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • 数学分野ではOpenAIの商用モデルを上回る数値も見られる
  • 総合解釈

    • gpt-ossシリーズは特に数学、論理、知識分野で高い性能を実証
    • 商用モデルとの差は大きくなく、実サービスやエンジニアリング用途でも活用可能性が高い
    • 大規模オープンモデルとして、研究開発、エージェント、カスタマイズ環境で十分に競争力がある選択肢

安全性およびテスト

  • すべてのモデルに対して厳格な安全トレーニングと評価が適用
  • OpenAIの安全性準備フレームワークに従い、悪意のあるファインチューニングへの耐性も別途テスト
  • 外部安全専門家と協力して、オープンモデル向け安全基準を整備

まだコメントはありません。

まだコメントはありません。