- OpenAIのo3-miniモデルが新たに公開されたが、他のoシリーズモデルと同様に評価がやや難しい
- いまや既存のGPT-4o、o1、o1 Proなどに続いて、用途に応じてどのモデルを選ぶかを決める必要がある状況
- o3-mini System Card(PDF)によると、一部の評価指標ではo3-miniがGPT-4oやo1より優れているが、すべての項目で一貫して高いわけではない
- Codeforces ELOのような競技プログラミング性能に関するベンチマーク指標で特に優れた性能を示す
- OpenAIは、o3-miniを使ってインターネット検索を行い、その結果をChatGPTで要約できるようにする予定
- 既存のo1モデルはChatGPTでウェブ検索ツールを使っていなかったため、この機能追加の実用性が注目される
- また、o3-miniはビジョン(画像)機能をサポートしていないが、次期miniモデルではビジョンを含む可能性がある
- 私が作成したCLIツールであるLLM 0.21で、o3-miniのサポートが追加された
-o reasoning_effortオプションでhigh、medium、lowを指定可能
- 現在o3-miniは、Tier 3以上のユーザーのみ利用可能
- 最低API利用額が100ドル以上である必要があり、そのティアに属することになる
- o3-miniのコストは
- 入力トークン100万個あたり1.10ドル
- 出力トークン100万個あたり4.40ドル
- GPT-4o(2.50ドル/10ドル)と比べて半額以下の安価な価格であり、o1(15ドル/60ドル)と比べると10分の1以下の価格
- Hacker Newsの投稿(42890627)を要約するために、hn-summary.shスクリプトをo3-miniで動かしてみた
hn-summary.sh 42890627 -o o3-mini
- 18,936個の入力トークンと2,905個の出力トークンを使用し、総コストは約0.033612ドル(3.3612セント)だった
- o3-miniの最大出力トークン制限は100,000個
- GPT-4o(16,000個)、DeepSeek R1(8,000個)、Claude 3.5(8,000個)よりはるかに大きい
- 内部推論に使われるトークンもこの上限内で消費されるため、実際の出力が100,000個に達するのは難しい可能性がある
- 入力トークンは最大200,000個まで可能で、GPT-4oの128,000個より拡張された容量
- 長文の翻訳作業などへの活用可能性が高そう
- Hacker Newsでプロ翻訳者のTom Gallyによるコメントが興味深い
- DeepSeek R1、o3-miniともに、長いテキストの翻訳時に後半で品質低下が見られたとの言及
- 当初はR1も悪くないように見えたが、o3-miniのほうがより滑らかで自然な英語で、求めた文体に近い結果を生み出した
- ただし出力の長さは、R1が5,855文字、o3-miniが9,052文字、手作業で整えた版は11,021文字
- R1は後半の一部段落を省略し、o3-miniは独特な省略文体を使っていた(名詞同士の間でandの代わりに/を使用)
- 以前はChatGPT、Claude、Geminiなどが同じテキストの翻訳でこのような問題を見せなかった、という意見
1件のコメント
OpenAI o3-Mini リリース