Cursor、コーディング特化AIモデル Composer 2をリリース
(cursor.com)Cursorが、フロンティア級の性能と低価格を両立したコーディング特化AIモデル Composer 2 を公開しました。
性能
主要なベンチマークすべてで、前作から大幅な向上を記録しました。
3つのテストでモデルを評価
CursorBench — Cursorが独自に作成した、実際のコーディング作業を対象とするベンチマークです。Composer 1 → 1.5 → 2 で 38.0 → 44.2 → 61.3 へ上昇しました。1 から 2 にかけて約61%性能が向上し、とくに 1.5 → 2 の区間では約17ポイント急伸しており、今回の世代で最大の飛躍となりました。
Terminal-Bench 2.0 — Laude Institute が管理する、ターミナルベースのエージェント評価です。ターミナルで実際にコマンドを実行しながらタスクを完了する能力を測定します。40.0 → 47.9 → 61.7 で、CursorBench とほぼ同じ上昇パターンを示しています。
SWE-bench Multilingual — 実際の GitHub イシューをコードで解決する、著名なソフトウェアエンジニアリングベンチマークの多言語版です。56.9 → 65.9 → 73.7 へ上昇しました。すでに Composer 1 の時点から56点台と他の2つのベンチマークより高く始まっており、これはコードパッチ作成能力が比較的早い段階から強かったことを意味します。
重要ポイント
3つのベンチマークはいずれも、1 → 1.5 より 1.5 → 2 のほうが伸び幅がはるかに大きく、これが今回の発表の核心です。継続事前学習 + 強化学習の組み合わせが効果を発揮した区間がまさにここです。73.7 を記録した SWE-bench Multilingual の数値は、現在公開されているモデルの中でも最上位クラスに当たります。
標準版: 入力 $0.50 / 出力 $2.50(100万トークンあたり)
高速版(fast): 入力 $1.50 / 出力 $7.50(100万トークンあたり)
高速版がデフォルトオプションとして提供される予定で、同クラスの高速モデルと比べて低価格である点が強みです。個人プランのユーザーには、別個の使用量プールとして十分な基本提供量が含まれます。
コメント
Cursorが Claude や GPT のような外部モデルを利用するレイヤーから離れ、自社モデルを直接トレーニングする方向へ本格的に転換した点は印象的です。とくに価格対性能のポジショニングが攻めており、コーディングエージェント市場でモデルレイヤーまで垂直統合しようとする戦略として読み取れます。これまで Cursor で Claude Sonnet や GPT-4o を使っていた人は、Composer 2 への切り替えを試してみる価値がありそうです。
5件のコメント
Kimi k2モデルに強化学習を適用したモデルだったと知られている
コスパ重視の立場でKiroとCursorの両方を使ってみると
Cursorのほうがより深いところまで優れている気がする。
速度も速いし
関連する整理は、Cursor Composer 2はKimi K2.5にRLを適用したモデルであることを確認 を参照してください
関連記事:
この内容に合わせてタイトルを修正しました。