OpenAIのo1、chain-of-thoughtモデルに関するノート
(simonwillison.net)- OpenAIは新しいプレビューモデル
o1-previewとo1-mini(miniはプレビューではない)を公開。以前のコードネームは「strawberry」
Chain-of-Thought方式で学習
- OpenAIは、これらのモデルは応答する前により多くの時間をかけて「考える」よう設計されていると説明
- この新しいモデルは、「段階的に考える」プロンプトパターンを特化・拡張したものと見なせる
- OpenAIの「Learning to Reason with LLMs」では、新モデルは強化学習を通じて思考の連鎖を改善し、戦略を洗練させる方法を学ぶと説明している
- これは、バックトラッキングや次トークン予測を超える「思考」を必要とする複雑なプロンプトを、モデルがよりうまく扱えることを意味する
APIドキュメントの低レベルな詳細
- 画像入力、関数呼び出し、一貫して高速な応答時間が必要なアプリケーションでは、GPT-4oおよびGPT-4o miniが引き続き適した選択肢となる
- 深い推論を必要とし、より長い応答時間を許容できるアプリケーションを開発する場合、o1モデルは優れた選択肢になりうる
- 新しい
o1-previewとo1-miniへのAPIアクセスは現在、Tier 5アカウントに制限されている - システムプロンプトのサポートなし。モデルは既存のChat Completions APIを使うが、送信できるのは
userとassistantメッセージのみ - ストリーミング対応、ツール利用、バッチ呼び出し、画像入力もなし
- 問題解決に必要な推論量に応じて、リクエストの処理には数秒から数分かかる場合がある
隠された推論トークン
- APIレスポンスには表示されないが、課金対象であり出力トークンとして計上される「推論トークン」が導入された
- これらの新モデルに有効なプロンプトについて、OpenAIはこうしたトークンに約25,000の予算を割り当てることを提案している
- 出力トークン許容量は
o1-previewで32,768、o1-miniで65,536へと大幅に増加 - APIドキュメントの最後のヒント: 検索拡張生成(RAG)で追加コンテキストを提供する際は、最も関連性の高い情報だけを含め、モデルが応答を過度に複雑化しないようにすること
隠された推論トークン
- 推論トークンはAPI上では見えない。課金はされるが、実際に何であるかは確認できない
- OpenAIはこれについて2つの主な理由を説明している
- 安全性とポリシー順守 - 中間ステップにポリシー違反となる情報が含まれる可能性を避けるため
- 競争優位 - 他モデルがOpenAIの投資した推論作業を学習するのを防ぐため
- このポリシー判断には不満もある。解釈可能性と透明性が重要であるにもかかわらず、プロンプト評価の主要な詳細が隠されるのは後退のように感じられる
例
- OpenAIは初期の例として、Bashスクリプト生成、クロスワードパズルの解答、化学物質溶液のpH計算などを提示
- これらの例は、ChatGPT UI版のモデルが思考の連鎖に関する詳細を表示する一方で、生の推論トークン自体は表示しないことを示している
- OpenAIには、推論をデータ検証やルーチン生成に活用する方法を示す2つの新しいcookbookがある
- Twitterで、GPT-4oでは失敗したが
o1-previewでは機能するプロンプト例があるかと質問-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- OpenAI研究者のJason Weiは、AIMEとGPQAでの結果は非常に優れているが、それが必ずしもユーザーが体感できるものにそのまま結びつくわけではないと述べている
これらすべての新しさ
- コミュニティが、これらのモデルをいつどこで適用すべきかに関するベストプラクティスを整理するには時間がかかるだろう
- 私は今後も主にGPT-4o(およびClaude 3.5 Sonnet)を使い続けると思うが、この新しい種類のモデルによって、LLMでどのような種類のタスクを解決できるかについての私たちの思考モデルが集団的に拡張されていくのを見るのは本当に興味深い
- 他のAI研究所でも、このスタイルのChain-of-Thought推論を適用するよう特別に訓練された独自版モデルで、こうした結果の一部を再現し始めると予想される
GN⁺の意見
- Chain-of-Thought方式で学習されたモデルは、複雑な問題解決において既存モデルの限界を克服する助けになる可能性がある。特に、段階的推論やバックトラッキングが必要な作業で性能向上が期待される
- しかし、推論トークンをAPIから隠すことは、モデルの解釈可能性と透明性の観点で懸念される点でもある。ユーザーにとっては、モデルの推論過程を理解し検証することが難しくなりうる
- 現時点では、これらのモデルがどの作業に最も適しているのか、既存モデルと比べてどのような長所・短所があるのかは明確ではない。コミュニティが多様な活用事例とベストプラクティスを掘り起こしていく過程が必要に見える
- AnthropicのClaudeやCohereのモデルなど、他のAI企業も類似のChain-of-Thought学習方式を導入する可能性がある。推論モデル市場での競争はさらに激しくなると予想される
- 全体として、今回のOpenAIの発表は、LLMの推論能力向上に向けた新しいアプローチを提示した点で意義がある。ただし、隠された推論トークンなどいくつか懸念点もあり、今後の改善と補完が必要に思われる
2件のコメント
誤字がありますね :)
"Chai-of-Thought方式で学習済み" → "Chain-of-Thought方式で学習済み"
Hacker Newsの意見
o1-previewモデルの問題点
OpenAI研究者 Jason Wei の引用
Rustコードのリファクタリングの試み
enumを取り除き、U8データ型だけを使うように変更を試みる2つの主要な要素
複雑なプロンプト評価の難しさ
o1の品質とコストの問題
GPT-4oとo1-previewの比較
基本的な数学問題を解く難しさ
法律に関する質問のテスト
Markdownコンテンツ処理の問題