OpenAIのo1、chain-of-thoughtモデルに関するノート

(simonwillison.net)

6 ポイント投稿者 GN⁺ 2024-09-14 | 2件のコメント | WhatsAppで共有

OpenAIは新しいプレビューモデル o1-preview と o1-mini（miniはプレビューではない）を公開。以前のコードネームは「strawberry」

Chain-of-Thought方式で学習

OpenAIは、これらのモデルは応答する前により多くの時間をかけて「考える」よう設計されていると説明
この新しいモデルは、「段階的に考える」プロンプトパターンを特化・拡張したものと見なせる
OpenAIの「Learning to Reason with LLMs」では、新モデルは強化学習を通じて思考の連鎖を改善し、戦略を洗練させる方法を学ぶと説明している
これは、バックトラッキングや次トークン予測を超える「思考」を必要とする複雑なプロンプトを、モデルがよりうまく扱えることを意味する

APIドキュメントの低レベルな詳細

画像入力、関数呼び出し、一貫して高速な応答時間が必要なアプリケーションでは、GPT-4oおよびGPT-4o miniが引き続き適した選択肢となる
深い推論を必要とし、より長い応答時間を許容できるアプリケーションを開発する場合、o1モデルは優れた選択肢になりうる
新しい o1-preview と o1-mini へのAPIアクセスは現在、Tier 5アカウントに制限されている
システムプロンプトのサポートなし。モデルは既存のChat Completions APIを使うが、送信できるのは user と assistant メッセージのみ
ストリーミング対応、ツール利用、バッチ呼び出し、画像入力もなし
問題解決に必要な推論量に応じて、リクエストの処理には数秒から数分かかる場合がある

隠された推論トークン

APIレスポンスには表示されないが、課金対象であり出力トークンとして計上される「推論トークン」が導入された
これらの新モデルに有効なプロンプトについて、OpenAIはこうしたトークンに約25,000の予算を割り当てることを提案している
出力トークン許容量は o1-preview で32,768、o1-mini で65,536へと大幅に増加
APIドキュメントの最後のヒント: 検索拡張生成（RAG）で追加コンテキストを提供する際は、最も関連性の高い情報だけを含め、モデルが応答を過度に複雑化しないようにすること

隠された推論トークン

推論トークンはAPI上では見えない。課金はされるが、実際に何であるかは確認できない
OpenAIはこれについて2つの主な理由を説明している
1. 安全性とポリシー順守 - 中間ステップにポリシー違反となる情報が含まれる可能性を避けるため
2. 競争優位 - 他モデルがOpenAIの投資した推論作業を学習するのを防ぐため
このポリシー判断には不満もある。解釈可能性と透明性が重要であるにもかかわらず、プロンプト評価の主要な詳細が隠されるのは後退のように感じられる

例

OpenAIは初期の例として、Bashスクリプト生成、クロスワードパズルの解答、化学物質溶液のpH計算などを提示
これらの例は、ChatGPT UI版のモデルが思考の連鎖に関する詳細を表示する一方で、生の推論トークン自体は表示しないことを示している
OpenAIには、推論をデータ検証やルーチン生成に活用する方法を示す2つの新しいcookbookがある
Twitterで、GPT-4oでは失敗したが o1-preview では機能するプロンプト例があるかと質問
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
OpenAI研究者のJason Weiは、AIMEとGPQAでの結果は非常に優れているが、それが必ずしもユーザーが体感できるものにそのまま結びつくわけではないと述べている

これらすべての新しさ

コミュニティが、これらのモデルをいつどこで適用すべきかに関するベストプラクティスを整理するには時間がかかるだろう
私は今後も主にGPT-4o（およびClaude 3.5 Sonnet）を使い続けると思うが、この新しい種類のモデルによって、LLMでどのような種類のタスクを解決できるかについての私たちの思考モデルが集団的に拡張されていくのを見るのは本当に興味深い
他のAI研究所でも、このスタイルのChain-of-Thought推論を適用するよう特別に訓練された独自版モデルで、こうした結果の一部を再現し始めると予想される

GN⁺の意見

Chain-of-Thought方式で学習されたモデルは、複雑な問題解決において既存モデルの限界を克服する助けになる可能性がある。特に、段階的推論やバックトラッキングが必要な作業で性能向上が期待される
しかし、推論トークンをAPIから隠すことは、モデルの解釈可能性と透明性の観点で懸念される点でもある。ユーザーにとっては、モデルの推論過程を理解し検証することが難しくなりうる
現時点では、これらのモデルがどの作業に最も適しているのか、既存モデルと比べてどのような長所・短所があるのかは明確ではない。コミュニティが多様な活用事例とベストプラクティスを掘り起こしていく過程が必要に見える
AnthropicのClaudeやCohereのモデルなど、他のAI企業も類似のChain-of-Thought学習方式を導入する可能性がある。推論モデル市場での競争はさらに激しくなると予想される
全体として、今回のOpenAIの発表は、LLMの推論能力向上に向けた新しいアプローチを提示した点で意義がある。ただし、隠された推論トークンなどいくつか懸念点もあり、今後の改善と補完が必要に思われる

2件のコメント

naneg93 2024-09-14

誤字がありますね :)

"Chai-of-Thought方式で学習済み" → "Chain-of-Thought方式で学習済み"

GN⁺ 2024-09-14

Hacker Newsの意見

o1-previewモデルの問題点
- 存在しないライブラリや関数を幻覚する
- Webであまり見つからない事実について誤った情報を提供する
- モデルが生成した情報の事実性を評価する方法がない
OpenAI研究者 Jason Wei の引用
- AIMEとGPQAで強力な成果を示したが、ユーザーには体感されない
- より難しいプロンプトを探すべきだという意見に疑問を呈している
Rustコードのリファクタリングの試み
- o1-miniはエラーのないコードを提供できない
- o1-previewはコンパイルでき、大半のテストを通過するコードを提供する
- Rustライブラリで enum を取り除き、U8 データ型だけを使うように変更を試みる
2つの主要な要素
- 優れた chain-of-thought プロンプトを読み、生成するよう訓練されたLLM
- モデルを反復的に再プロンプトするランタイムコード
- OpenAIはこの違いを明確に説明していない
複雑なプロンプト評価の難しさ
- プロンプト評価の過程が隠されており、デバッグが難しい
- ユーザーにとって重要なのは結果だけであり、過程は重要ではない
o1の品質とコストの問題
- 品質の大きな向上はない一方で、コストと遅延時間に大きな悪影響がある
GPT-4oとo1-previewの比較
- GPT-4oは最適な三目並べ戦略を提示できない
- o1-previewは最適な戦略を提示するが、非標準グリッドでは失敗する
基本的な数学問題を解く難しさ
- 3つの数字を足して割り、同じ結果を得る問題の解決を試みる
- 現在のモデルは基本的な学校の問題ですら解くのが難しい
法律に関する質問のテスト
- GPT-4oはすぐに正しい回答を提供する
- o1-previewは誤った回答を提供し、複数回の追加質問が必要になる
Markdownコンテンツ処理の問題
- Markdownコンテンツに記号論理の表現と証明の例を含めると、利用規約違反と見なされる

OpenAIのo1、chain-of-thoughtモデルに関するノート

Chain-of-Thought方式で学習

APIドキュメントの低レベルな詳細

隠された推論トークン

隠された推論トークン

例

これらすべての新しさ

GN⁺の意見

関連記事

2件のコメント

Hacker Newsの意見