Simon WillisonによるClaude 4.5 Opusレビュー

(simonwillison.net)

8 ポイント投稿者 laeyoung 2025-11-26 | 2件のコメント | WhatsAppで共有

Claude Opus 4.5、そして新しいLLM評価がますます難しくなっている理由

価格は非常に満足度が高い

入力は100万ドルあたり5ドル、出力は100万ドルあたり25ドル
以前のOpusの15ドル/75ドルよりはるかに安い
またGPT-5.1製品群（1.25ドル/10ドル）およびGemini 3 Pro（2ドル/12ドル、または20万トークン以上購入時は4ドル/18ドル）と比べても競争力がある

Opus 4.5の変更点のうち興味深い改善事項

Opus 4.5には、デフォルトで高に設定された新しいeffortパラメータが追加された
強化されたComputer useをサポートし、特にzoomを提供することで、画面の拡大領域を調べるよう依頼できるツールを提供する
以前の補助ターンの思考ブロックは、これまでと異なり、デフォルトでモデルコンテキスト内に保持される

評価の難しさ

最前線のLLMの性能を見分けることが、より難しくなっている
SWE-bench Verifiedのようなベンチマークでは、モデル間の差は一桁台のパーセンテージポイントであることが示されている
しかし、これが実際の問題を解こうとしたときに、どんな結果をもたらすのか、どんな違いがあるのかは説明してくれない
とりあえず自転車に乗るペリカンを描くことは続いている。

2件のコメント

youknowone 2025-11-26

翻訳: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

AnthropicのOpus 4.5ベンチマークグラフ

そのまま描くと高さがほぼ同じに見えるため、グラフのY軸の0〜70区間は圧縮されています。