- OpenAIが初のオープンソース 大規模言語モデル
gpt-oss-120b と gpt-oss-20b を公開しており、いくつかのベンチマークでは優れた結果を示すが、実運用では限界がある
- これらのモデルは 汎用知識 を備えているが、大衆文化など特定領域の知識が不足しているという評価を受けている
- Microsoftの Phiシリーズ のように、合成データ中心学習によってベンチマーク性能は高い一方、実利用では期待を下回る傾向がある
- 合成データ学習には、安全性を高め、オープンソース公開時に発生しうる 悪用リスク を減らす利点がある
- OpenAIは中国産オープンソースモデルに対してベンチマーク優位を保ちながら安全性を維持するため、Phiスタイルのアプローチを選択したと見られる
OpenAIの初オープンソースLLM公開
- OpenAIは
gpt-oss-120b と gpt-oss-20b という 初のオープンソース大規模言語モデル を発表し、Web上で直接対話可能
- 一部のベンチマークでは優れた性能を示すが、SimpleQA のような特定テストでは性能が低い
- 科学分野などの 一般知識 は豊富だが、大衆文化知識は不足しているという評価がある
- 実用性は6か月ほどで明確になると見込まれ、ベンチマークと比較して実戦性能が低い可能性が高い
Phiモデルと合成データ学習
- 2024年、MicrosoftのSebastien Bubeckが主導した Phiシリーズ は、完全に合成データで学習されたモデル
- 合成データは、他の言語モデルが生成したり、人間が選別した教科書ベースのテキストであり、品質管理とコントロールが容易だが生成コストが高い
- この手法はベンチマーク性能を向上させる一方で、実環境では期待に達しない結果を示す傾向がある
- 合成データはベンチマークの問題形式に合わせて容易に作成できるため、試験対策型学習 が可能だが、汎用性は低下する
Sebastien BubeckのOpenAI合流と gpt-oss
- 2024年末、BubeckはMicrosoftを離れOpenAIに加わった
gpt-oss モデルの事前学習データの詳細は公開されていないが、強くフィルタリングされたデータあるいは合成データを使用した可能性が高い
- このアプローチはPhi-5およびPhi-5-miniに似た性質を持つ可能性がある
合成データの安全性の利点
- オープンソースモデルは公開後に無制限で ファインチューニング が可能なため、安全性の問題が生じうる
- 特に小型言語モデルの主要な非公式利用先のひとつがアダルトロールプレイであり、したがって安全性管理が重要である
- 合成データまたは教科書ベースデータで学習すれば、危険コンテンツを含まず、安全性を高めることができる
- OpenAIは、中国製オープンソースモデルよりベンチマークで優位を保ちながら安全性も維持する戦略を選択したように見える
結論: 実質的にPhi-5系
gpt-oss モデルは、合成データを基盤とした安全中心設計により、実戦性能より ベンチマークスコア と安全性を優先したと推定される
- 結果的にこれらのモデルは実質的にPhi-5およびPhi-5-miniに相当する性質を持つ
まだコメントはありません。