3 ポイント 投稿者 princox 4 시간 전 | 1件のコメント | WhatsAppで共有
  • CursorのCEO、Michael TruellがXで「Composer 2.5がCursorで最も多く選ばれるモデルになった。1日間、すべてのユーザーに10倍の利用量を提供する」と発表
  • リリース直後に採用率が急上昇したことを示すシグナルであり、Anthropic/OpenAIモデルを抑えて自社モデルがデフォルトで選ばれる流れ

Composer 2.5 主要ポイント
• 5月18日に正式リリースされた、Cursorの第3世代独自agentic codingモデル
• Composer 2と同じく、Moonshot AIのオープンソースKimi K2.5をベースとして使用。今回は発表の冒頭段落でその点を明示(3月にKimi baseを明確に公開せず批判を受けた点を意識した対応)
• 全計算資源の85%をCursor独自の強化学習パイプラインとpost-trainingに投入し、Composer 2比で25倍多いsynthetic coding tasksを使用
• long-horizon作業で信頼性を高めるため、「テキストフィードバックベースのtargeted RL」を導入 — 長いrolloutの末に単一のrewardだけを与える代わりに、誤ったtool callが発生した具体的な箇所へ直接ヒントを注入し、credit assignmentを高精度化
ベンチマーク(Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69.3% vs 69.4% vs 82.7% vs 61.7% — Opus 4.7と事実上同率、GPT-5.5には約13ポイント差で劣後
• SWE-Bench Multilingual: 79.8% vs 80.5% vs 77.8% vs 73.7% — Opus 4.7に0.7ポイント差、GPT-5.5を上回る
• CursorBench v3.1 (default setting): Composer 2.5 63.2%, Opus 4.7 xhigh default 61.6%, GPT-5.5 medium default 59.2% — 実際の開発者が使うデフォルト設定では、両フロンティアモデルを上回る
価格 — 最大の武器
• Standard tier: 入力 $0.50/M、出力 $2.50/M。Fast tier(インタラクティブデフォルト): 入力 $3.00/M、出力 $15.00/M
• SWE-Bench MultilingualでOpus 4.7と同等性能を出しつつ、Anthropic価格の約1/10
• CursorBench基準で63%の正確度を達成しながら、平均taskコストは$1未満 — 同等性能のOpus/GPTはtaskあたり数ドル高い
同時に示された大きな構図
• CursorはComposer 2.5とは別に、xAIインフラ(SpaceXAI)とともに、Colossus 2の約100万基のH100級GPUを活用した10倍大規模なモデルをゼロから学習中だと発表(リリース時期未定)
• CEOのMichael Truellによれば、現在Cursor内部でマージされるPRの35%はautonomous agentが生成
• Claude CodeがARR 25億ドル、法人顧客30万社を突破してCursorを圧迫してきた状況の中、自社モデルで反撃する構図
活用上の制約 / コメント
• Composer 2.5はCursor IDE、Cursor CLI、Cursor Webでのみ利用可能 — 外部API、HuggingFaceミラー、サードパーティゲートウェイはなし
• Kimi K2.5ベースである点は、規制産業やfederal関連業務では依然として検討要素
• 「IDEラッパー」として始まったCursorが、本格的なmodel labへと転換しつつあることを示すリリース。同じbaseからpost-trainingだけで+6pt以上引き上げた事例であり、「vertical RLがraw scaleにどこまで勝てるか」を示す良いデータポイント
• 出典: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai

1件のコメント

 
neneka 3 시간 전

出たばかりなので使ってみていますが、Composer 2.5はかなり実用的です。