2 ポイント 投稿者 minodevs 13 일 전 | 1件のコメント | WhatsAppで共有

AnthropicがフラッグシップモデルClaude Opus 4.7をリリースしました。

  • SWE-bench Verified 87.6%(+6.8pp)、SWE-bench Pro 64.3%でGPT-5.4(57.7%)を上回り1位
  • GPQA Diamond 94.2%、Terminal-Bench 2.0 69.4%、Finance Agent 64.4%を達成
  • コーディングベンチマークでOpus 4.6比13%向上、プロダクションタスクの解決率は3倍に増加
  • 新しい自己検証(Self-Verification)機能: 作業完了前に自ら検証ステップを設計して実行
  • 3.3倍の高解像度ビジョン(最大2,576px)、新しいトークナイザーを適用
  • xhigh effortレベルを追加、エージェント的推論が14%改善、ツールエラーは1/3に減少
  • 価格はOpus 4.6と同じ($5/$25 per MTok)
  • 非公開モデルMythosよりは性能が低いとAnthropicが自ら認める

Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryでも利用できます。

1件のコメント

 
runai 12 일 전

OPUS 4.7 > GPT 5.4 > OPUS 4.6