OpenAI、「Model Spec」を公開
(openai.com)対話型AIモデルがどのように動作すべきかについての一般の理解を深めるため、「Model Spec」という文書を公開
- モデルスペックは、OpenAI APIとChatGPTでモデルがどのように動作することを望むかを明示した文書
- モデル動作を構成する実質的な選択肢を人々が理解し、議論できるようにすることが重要だと判断
- モデル仕様は、OpenAIで使われてきた既存文書、モデル動作設計に関する研究と経験、そして今後のモデル開発に関する進行中の作業を反映
- これは、人間の入力を活用してモデル動作を改善しようとするOpenAIの継続的な取り組みの延長線上にあり、集団的アラインメント(collective alignment)の取り組みと、より広範な体系的モデル安全性アプローチを補完するもの
望ましいモデル動作を形作る(Shaping Desired Model Behavior)
モデル動作、つまりユーザーの入力に対してモデルがどのように反応するか(口調、性格、応答の長さなど)は、人間がAI機能と相互作用する方法において非常に重要。
- モデル動作を形作ることは、まだ初期段階の科学であり、モデルは明示的にプログラムされるのではなく、広範なデータから学習する
- モデル動作の設計では、さまざまな問い、考慮事項、ニュアンスを踏まえる必要があり、しばしば意見の相違を評価しなければならない
- モデルがユーザーに広く役立ち、有益であることを意図していても、その意図同士が実際には衝突することがある
- 例: セキュリティ企業は顧客保護のためにフィッシングメール分類器の訓練用合成データを生成したい一方で、詐欺師がこの機能を使えば有害になり得る
モデル仕様(Model Spec)の紹介
- OpenAIは、望ましいモデル動作の構成方法と、衝突が発生した際にトレードオフをどう評価するかを明示した新しい文書「Model Spec」の草案を共有
- モデル仕様は、現在OpenAIで使用中の文書、モデル動作設計に関する経験と進行中の研究、専門家の意見など、今後のモデル開発を導く最近の作業を統合
- モデル仕様は完全ではなく、今後時間とともに変更される見込み
モデル仕様アプローチには次が含まれる:
目標: 望ましい動作に方向性を与える広範で一般的な原則- 開発者とエンドユーザーを支援する
- 人類に利益をもたらす
- OpenAIを適切に反映する
ルール: 複雑さに対処し、安全性と合法性の確保に役立つ指針- 命令階層に従う
- 関連法規を順守する
- 情報ハザードを提供しない
- 創作者と権利を尊重する
- プライバシーを保護する
- NSFWコンテンツで応答しない
デフォルトの動作: 目標とルールに沿った指針であり、衝突への対処方法を示し、目標の優先順位付けとバランスの取り方を実演- ユーザー/開発者の善意を前提とする
- 必要に応じて明確な質問をする
- 行き過ぎない範囲で最大限に役立つ
- 対話型チャットとプログラミング利用の多様な要件を支援する
- 客観的な視点を前提とする
- 公平さと親切さを促し、憎悪を抑制する
- 他人の考えを変えようとしない
- 不確実性を表明する
- 作業に適したツールを使う
- 長さ制限を守りつつ、徹底的かつ効率的である
モデル仕様の活用方法
- OpenAIは、集団的アラインメント(collective alignment)とモデル安全性に関する取り組みの延長として、モデル仕様を人間のフィードバックから強化学習を行う研究者とAIトレーナーのための指針として活用する計画
- また、モデルがModel Specから直接学習できる度合いを探る予定
今後の計画
- OpenAIはこの取り組みを、モデルの望ましい振る舞い方、望ましいモデル動作をどう決めるか、そして一般の人々をこうした議論に参加させる最善の方法に関する継続的な公共的対話の一部と見なしている。
- 対話が続く中で、政策立案者、信頼できる機関、ドメイン専門家など、世界的に代表性を持つステークホルダーと協力する機会を模索する予定
- これにより、次の点を把握したいとしている:
- ステークホルダーがモデル仕様アプローチと個々の目標、ルール、デフォルトをどのように理解するか
- ステークホルダーがそのアプローチと個々の目標、ルール、デフォルトを支持するかどうか
- 追加で考慮すべき目標、ルール、デフォルトがあるかどうか
- OpenAIは、この取り組みが進むにつれてステークホルダーの意見を聞けることを期待している
- また今後2週間、一般の人々にModel Specの目標、ルール、デフォルトに関するフィードバックを共有するよう呼びかけている
- これにより、使命に向けて責任を持って前進するため、フィードバックを収集・統合する強力なプロセスを構築する上で早期の洞察を得られることを期待
- 今後1年間、OpenAIはモデル仕様の変更点、フィードバックへの対応、モデル動作設計に関する研究の進捗について更新情報を共有する予定
まだコメントはありません。