OpenAI、より深く考えて回答する o1 モデルのプレビューを公開

xguru · 2024-09-13T08:50:46+09:00

複雑な問題を解決するための新しい推論モデルモデルが応答する前に、問題についてより長く考えるよう訓練されている訓練を通じて思考プロセスを改善し、さまざまな戦略を試し、ミスを認識する方法を学習物理学、化学、生物学の難しいベンチマーク課題で、博士課程の学生に近い性能を示す数学とコーディングでも優れた成績を示す国際数学オリンピック（IMO）予選試験では、GPT-4o が 13% しか正解できなかった一方、推論モデルは 83% を正解 Codeforces の大会でコーディング能力が上位 89 パーセンタイルに到達安全性新しい安全性トレーニングのアプローチを考案し、モデルが安全性およびアラインメントの指針に従うようにした最も難しい脱獄テストのひとつで、GPT-4o は 22 点（100 点満点）だった一方、o1-preview モデルは 84 点を獲得安全性業務、内部ガバナンス、連邦政府との協力を強化 Preparedness Framework を用いた厳格なテストと評価最高水準のレッドチーム運用 Safety & Security Committee を含む取締役会レベルのレビュー・プロセス米国および英国の AI Safety Institute と協定を締結し、運用を開始誰のためのモデルか科学、コーディング、数学などの分野で複雑な問題を扱う場合に、特に有用となる可能性があるたとえばヘルスケア研究者は細胞シーケンシングデータにアノテーションを付け、物理学者は量子光学に必要な複雑な数式を生成し、開発者は多段階のワークフローを構築・実行するために利用できる OpenAI o1-mini o1 シリーズは、複雑なコードを正確に生成しデバッグすることに優れている開発者により効率的なソリューションを提供するため、より高速で低コストな推論モデル o1-mini もリリース o1-mini は o1-preview より 80% 安価推論は必要だが、幅広い世界知識は必要としないアプリケーション向けの、強力でコスト効率の高いモデル OpenAI o1 の使い方 ChatGPT Plus および Team ユーザーは本日から ChatGPT で o1 モデルにアクセス可能 o1-preview と o1-mini はどちらも手動で選択できるリリース時点で、o1-preview は週 30 件、o1-mini は週 50 件のメッセージ制限がある ChatGPT Enterprise および Edu ユーザーは来週から両モデルにアクセス可能 API 利用ティア 5 に該当する開発者は、本日から 20 RPM のレート制限で API 上の両モデルを使ったプロトタイピングを開始できるこれらのモデルの API には現在、関数呼び出し、ストリーミング、システムメッセージ対応などの機能は含まれていないすべての ChatGPT Free ユーザーに o1-mini へのアクセスを提供する予定今後の計画これは ChatGPT および API 向け推論モデルの初期プレビューモデル更新に加え、ブラウジング、ファイルおよび画像アップロードなどの機能を追加し、より多くの人にとって有用なものにしていく計画新しい OpenAI o1 シリーズとあわせて、GPT シリーズのモデル開発とリリースも継続する計画

(openai.com)

8 ポイント投稿者 xguru 2024-09-13 | 4件のコメント | WhatsAppで共有

複雑な問題を解決するための新しい推論モデル
モデルが応答する前に、問題についてより長く考えるよう訓練されている
訓練を通じて思考プロセスを改善し、さまざまな戦略を試し、ミスを認識する方法を学習
物理学、化学、生物学の難しいベンチマーク課題で、博士課程の学生に近い性能を示す
数学とコーディングでも優れた成績を示す
- 国際数学オリンピック（IMO）予選試験では、GPT-4o が 13% しか正解できなかった一方、推論モデルは 83% を正解
- Codeforces の大会でコーディング能力が上位 89 パーセンタイルに到達

安全性

新しい安全性トレーニングのアプローチを考案し、モデルが安全性およびアラインメントの指針に従うようにした
最も難しい脱獄テストのひとつで、GPT-4o は 22 点（100 点満点）だった一方、o1-preview モデルは 84 点を獲得
安全性業務、内部ガバナンス、連邦政府との協力を強化
- Preparedness Framework を用いた厳格なテストと評価
- 最高水準のレッドチーム運用
- Safety & Security Committee を含む取締役会レベルのレビュー・プロセス
米国および英国の AI Safety Institute と協定を締結し、運用を開始

誰のためのモデルか

科学、コーディング、数学などの分野で複雑な問題を扱う場合に、特に有用となる可能性がある
たとえば
- ヘルスケア研究者は細胞シーケンシングデータにアノテーションを付け、
- 物理学者は量子光学に必要な複雑な数式を生成し、
- 開発者は多段階のワークフローを構築・実行するために利用できる

OpenAI o1-mini

o1 シリーズは、複雑なコードを正確に生成しデバッグすることに優れている
開発者により効率的なソリューションを提供するため、より高速で低コストな推論モデル o1-mini もリリース
o1-mini は o1-preview より 80% 安価
- 推論は必要だが、幅広い世界知識は必要としないアプリケーション向けの、強力でコスト効率の高いモデル

OpenAI o1 の使い方

ChatGPT Plus および Team ユーザーは本日から ChatGPT で o1 モデルにアクセス可能
o1-preview と o1-mini はどちらも手動で選択できる
リリース時点で、o1-preview は週 30 件、o1-mini は週 50 件のメッセージ制限がある
ChatGPT Enterprise および Edu ユーザーは来週から両モデルにアクセス可能
API 利用ティア 5 に該当する開発者は、本日から 20 RPM のレート制限で API 上の両モデルを使ったプロトタイピングを開始できる
これらのモデルの API には現在、関数呼び出し、ストリーミング、システムメッセージ対応などの機能は含まれていない
すべての ChatGPT Free ユーザーに o1-mini へのアクセスを提供する予定

今後の計画

これは ChatGPT および API 向け推論モデルの初期プレビュー
モデル更新に加え、ブラウジング、ファイルおよび画像アップロードなどの機能を追加し、より多くの人にとって有用なものにしていく計画
新しい OpenAI o1 シリーズとあわせて、GPT シリーズのモデル開発とリリースも継続する計画

4件のコメント

dbs0829 2024-09-13

GitHub Copilotとのシナジーが気になりますね。

wedding 2024-09-13

これがあのうわさのストロベリーですか？

brainer 2024-09-13

そうです。Altmanはその噂を広めた人を慰めました。

xguru 2024-09-13

その通りだと思います。単に推論に集中するために、新しいバージョン番号として1を選んだということのようです。