8 ポイント 投稿者 laeyoung 2025-11-26 | 2件のコメント | WhatsAppで共有

Claude Opus 4.5、そして新しいLLM評価がますます難しくなっている理由

価格は非常に満足度が高い

  • 入力は100万ドルあたり5ドル、出力は100万ドルあたり25ドル
  • 以前のOpusの15ドル/75ドルよりはるかに安い
  • またGPT-5.1製品群(1.25ドル/10ドル)およびGemini 3 Pro(2ドル/12ドル、または20万トークン以上購入時は4ドル/18ドル)と比べても競争力がある

Opus 4.5の変更点のうち興味深い改善事項

  • Opus 4.5には、デフォルトで高に設定された新しいeffortパラメータが追加された
  • 強化されたComputer useをサポートし、特にzoomを提供することで、画面の拡大領域を調べるよう依頼できるツールを提供する
  • 以前の補助ターンの思考ブロックは、これまでと異なり、デフォルトでモデルコンテキスト内に保持される

評価の難しさ

  • 最前線のLLMの性能を見分けることが、より難しくなっている
  • SWE-bench Verifiedのようなベンチマークでは、モデル間の差は一桁台のパーセンテージポイントであることが示されている
  • しかし、これが実際の問題を解こうとしたときに、どんな結果をもたらすのか、どんな違いがあるのかは説明してくれない
  • とりあえず自転車に乗るペリカンを描くことは続いている。

2件のコメント

 
laeyoung 2025-11-26

AnthropicのOpus 4.5ベンチマークグラフ

  • そのまま描くと高さがほぼ同じに見えるため、グラフのY軸の0〜70区間は圧縮されています。