Simon WillisonによるClaude 4.5 Opusレビュー
(simonwillison.net)Claude Opus 4.5、そして新しいLLM評価がますます難しくなっている理由
価格は非常に満足度が高い
- 入力は100万ドルあたり5ドル、出力は100万ドルあたり25ドル
- 以前のOpusの15ドル/75ドルよりはるかに安い
- またGPT-5.1製品群(1.25ドル/10ドル)およびGemini 3 Pro(2ドル/12ドル、または20万トークン以上購入時は4ドル/18ドル)と比べても競争力がある
Opus 4.5の変更点のうち興味深い改善事項
- Opus 4.5には、デフォルトで高に設定された新しい
effortパラメータが追加された - 強化されたComputer useをサポートし、特に
zoomを提供することで、画面の拡大領域を調べるよう依頼できるツールを提供する - 以前の補助ターンの思考ブロックは、これまでと異なり、デフォルトでモデルコンテキスト内に保持される
評価の難しさ
- 最前線のLLMの性能を見分けることが、より難しくなっている
- SWE-bench Verifiedのようなベンチマークでは、モデル間の差は一桁台のパーセンテージポイントであることが示されている
- しかし、これが実際の問題を解こうとしたときに、どんな結果をもたらすのか、どんな違いがあるのかは説明してくれない
- とりあえず自転車に乗るペリカンを描くことは続いている。
2件のコメント
翻訳: https://rosettalens.com/s/ko/claude-opus
AnthropicのOpus 4.5ベンチマークグラフ