Simon Willisonによるo3-miniに関するノート

xguru · 2025-02-02T10:07:02+09:00

OpenAIのo3-miniモデルが新たに公開されたが、他のoシリーズモデルと同様に評価がやや難しいいまや既存のGPT-4o、o1、o1 Proなどに続いて、用途に応じてどのモデルを選ぶかを決める必要がある状況 o3-mini System Card（PDF）によると、一部の評価指標ではo3-miniがGPT-4oやo1より優れているが、すべての項目で一貫して高いわけではない Codeforces ELOのような競技プログラミング性能に関するベンチマーク指標で特に優れた性能を示す OpenAIは、o3-miniを使ってインターネット検索を行い、その結果をChatGPTで要約できるようにする予定既存のo1モデルはChatGPTでウェブ検索ツールを使っていなかったため、この機能追加の実用性が注目されるまた、o3-miniはビジョン（画像）機能をサポートしていないが、次期miniモデルではビジョンを含む可能性がある私が作成したCLIツールであるLLM 0.21で、o3-miniのサポートが追加された -o reasoning_effortオプションでhigh、medium、lowを指定可能現在o3-miniは、Tier 3以上のユーザーのみ利用可能最低API利用額が100ドル以上である必要があり、そのティアに属することになる o3-miniのコストは入力トークン100万個あたり1.10ドル出力トークン100万個あたり4.40ドル GPT-4o（2.50ドル／10ドル）と比べて半額以下の安価な価格であり、o1（15ドル／60ドル）と比べると10分の1以下の価格 Hacker Newsの投稿（42890627）を要約するために、hn-summary.shスクリプトをo3-miniで動かしてみた hn-summary.sh 42890627 -o o3-mini 18,936個の入力トークンと2,905個の出力トークンを使用し、総コストは約0.033612ドル（3.3612セント）だった o3-miniの最大出力トークン制限は100,000個 GPT-4o（16,000個）、DeepSeek R1（8,000個）、Claude 3.5（8,000個）よりはるかに大きい内部推論に使われるトークンもこの上限内で消費されるため、実際の出力が100,000個に達するのは難しい可能性がある入力トークンは最大200,000個まで可能で、GPT-4oの128,000個より拡張された容量長文の翻訳作業などへの活用可能性が高そう価格が安く、長文の入力・出力処理に有利なため Hacker Newsでプロ翻訳者のTom Gallyによるコメントが興味深い DeepSeek R1、o3-miniともに、長いテキストの翻訳時に後半で品質低下が見られたとの言及当初はR1も悪くないように見えたが、o3-miniのほうがより滑らかで自然な英語で、求めた文体に近い結果を生み出したただし出力の長さは、R1が5,855文字、o3-miniが9,052文字、手作業で整えた版は11,021文字 R1は後半の一部段落を省略し、o3-miniは独特な省略文体を使っていた（名詞同士の間でandの代わりに/を使用）以前はChatGPT、Claude、Geminiなどが同じテキストの翻訳でこのような問題を見せなかった、という意見

(simonwillison.net)

14 ポイント投稿者 xguru 2025-02-02 | 1件のコメント | WhatsAppで共有

OpenAIのo3-miniモデルが新たに公開されたが、他のoシリーズモデルと同様に評価がやや難しい
- いまや既存のGPT-4o、o1、o1 Proなどに続いて、用途に応じてどのモデルを選ぶかを決める必要がある状況
o3-mini System Card（PDF）によると、一部の評価指標ではo3-miniがGPT-4oやo1より優れているが、すべての項目で一貫して高いわけではない
- Codeforces ELOのような競技プログラミング性能に関するベンチマーク指標で特に優れた性能を示す
OpenAIは、o3-miniを使ってインターネット検索を行い、その結果をChatGPTで要約できるようにする予定
- 既存のo1モデルはChatGPTでウェブ検索ツールを使っていなかったため、この機能追加の実用性が注目される
また、o3-miniはビジョン（画像）機能をサポートしていないが、次期miniモデルではビジョンを含む可能性がある
私が作成したCLIツールであるLLM 0.21で、o3-miniのサポートが追加された
- -o reasoning_effortオプションでhigh、medium、lowを指定可能
現在o3-miniは、Tier 3以上のユーザーのみ利用可能
- 最低API利用額が100ドル以上である必要があり、そのティアに属することになる
o3-miniのコストは
- 入力トークン100万個あたり1.10ドル
- 出力トークン100万個あたり4.40ドル
- GPT-4o（2.50ドル／10ドル）と比べて半額以下の安価な価格であり、o1（15ドル／60ドル）と比べると10分の1以下の価格
Hacker Newsの投稿（42890627）を要約するために、hn-summary.shスクリプトをo3-miniで動かしてみた
- hn-summary.sh 42890627 -o o3-mini
- 18,936個の入力トークンと2,905個の出力トークンを使用し、総コストは約0.033612ドル（3.3612セント）だった
o3-miniの最大出力トークン制限は100,000個
- GPT-4o（16,000個）、DeepSeek R1（8,000個）、Claude 3.5（8,000個）よりはるかに大きい
- 内部推論に使われるトークンもこの上限内で消費されるため、実際の出力が100,000個に達するのは難しい可能性がある
入力トークンは最大200,000個まで可能で、GPT-4oの128,000個より拡張された容量
長文の翻訳作業などへの活用可能性が高そう
- 価格が安く、長文の入力・出力処理に有利なため
Hacker Newsでプロ翻訳者のTom Gallyによるコメントが興味深い
- DeepSeek R1、o3-miniともに、長いテキストの翻訳時に後半で品質低下が見られたとの言及
- 当初はR1も悪くないように見えたが、o3-miniのほうがより滑らかで自然な英語で、求めた文体に近い結果を生み出した
- ただし出力の長さは、R1が5,855文字、o3-miniが9,052文字、手作業で整えた版は11,021文字
- R1は後半の一部段落を省略し、o3-miniは独特な省略文体を使っていた（名詞同士の間でandの代わりに/を使用）
- 以前はChatGPT、Claude、Geminiなどが同じテキストの翻訳でこのような問題を見せなかった、という意見

1件のコメント

xguru 2025-02-02

OpenAI o3-Mini リリース

Simon Willisonによるo3-miniに関するノート

関連記事

1件のコメント