AnthropicがフラッグシップモデルClaude Opus 4.7をリリースしました。
- SWE-bench Verified 87.6%(+6.8pp)、SWE-bench Pro 64.3%でGPT-5.4(57.7%)を上回り1位
- GPQA Diamond 94.2%、Terminal-Bench 2.0 69.4%、Finance Agent 64.4%を達成
- コーディングベンチマークでOpus 4.6比13%向上、プロダクションタスクの解決率は3倍に増加
- 新しい自己検証(Self-Verification)機能: 作業完了前に自ら検証ステップを設計して実行
- 3.3倍の高解像度ビジョン(最大2,576px)、新しいトークナイザーを適用
- xhigh effortレベルを追加、エージェント的推論が14%改善、ツールエラーは1/3に減少
- 価格はOpus 4.6と同じ($5/$25 per MTok)
- 非公開モデルMythosよりは性能が低いとAnthropicが自ら認める
Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryでも利用できます。
1件のコメント
OPUS 4.7 > GPT 5.4 > OPUS 4.6