- Cursorが公開した Composer は、ソフトウェアエンジニアリング向けの 高速インテリジェントエージェントモデル で、類似モデルと比べて 4倍速いコード生成速度 を達成
- 実際の大規模コードベースの問題を解決するよう訓練され、検索・編集ツール を活用してさまざまな難易度の課題を実行
- Mixture-of-Experts(MoE) 構造と 強化学習(RL) を組み合わせ、コード編集・計画・回答など 長期コンテキストの理解と生成 を支援
- Cursor Bench 評価を通じて、モデルの正確性だけでなく コードベースの一貫性およびエンジニアリング慣行の遵守 まで測定
- PyTorch・Rayベースの非同期RLインフラ と MXFP8低精度学習 を活用し、数千基のGPUで効率的な学習と推論速度の向上を実現
Composer 概要
- Composerは ソフトウェアエンジニアリングの知能と速度 を目標に開発された新しいエージェントモデル
- ベンチマークでは類似モデル比で 4倍速いコード生成速度 を記録
- Cursor内で 大規模コードベース問題解決用エージェント として最適化されている
- モデルは実環境で 検索および編集ツール を使って、さまざまな難易度の問題を解決するよう訓練されている
開発背景
- Composerは、Cursorの カスタムコード自動補完モデル(Cursor Tab) の開発経験から生まれた
- 開発者が 知的でありながら応答の速いモデル を好むことを確認
- 初期実験モデル Cheetah をベースに、Composerはそれを改良した より速く、より賢いバージョン として設計された
- 目標は 開発フローを維持しながら即時応答を提供するモデル の構築
モデル構造と学習方式
- Composerは Mixture-of-Experts(MoE) 言語モデルで、長期コンテキストの理解と生成 を支援
- 強化学習(RL) により、さまざまな開発環境で特化される
- 各学習段階で問題説明を受け取り、最適なコード修正・計画・回答 を生成
- モデルは ファイルの読み取り・編集、ターミナルコマンドの実行、コードベース全体のセマンティック検索 などのツールを活用
- RLの過程でモデルは、複雑な検索の実行、リンターエラーの修正、単体テストの作成および実行 といった有用な行動を自律的に学習
評価とベンチマーク
- Cursor Bench は、実際のエンジニアの要求と最適解を含む内部評価セット
- モデルの 正確性、コードベースの抽象化への準拠、ソフトウェアエンジニアリング慣行との一致度 を測定
- Composerは 「Fast Frontier」 等級のモデルで、効率的な推論を目指す Haiku 4.5、Gemini Flash 2.5 などと比較される
- GPT-5、Sonnet 4.5 などの 最上位Frontierモデル よりは遅いが、速度に対して高い効率性 を持つ
インフラとシステム設計
- 大規模MoEモデル学習のため、PyTorchとRayベースの非同期RLインフラ を構築
- MXFP8 MoEカーネル、エキスパート並列化、ハイブリッドシャーディングデータ並列化 を組み合わせ
- 数千基の NVIDIA GPU で通信コストを最小化しつつ学習を拡張
- MXFP8低精度学習 により 推論速度を向上 し、後処理量子化が不要
- RL中、モデルはCursor Agentのすべてのツールを呼び出し可能
- コード編集、セマンティック検索、文字列grep、ターミナルコマンド実行などをサポート
- そのため 数十万件のクラウドサンドボックス環境 を並列実行
- 既存の Background Agentsインフラ を拡張して バースト型学習負荷 を処理
内部活用と展開
- CursorチームはComposerを 自社の開発業務に積極活用
- 多くのエンジニアが 日常的なソフトウェア開発にComposerを使用
- 今回の公開を通じて、他の開発者にも有用に活用されることを期待
付録: 内部ベンチマーク分類
- Fast Frontier: 効率的推論モデル (Haiku 4.5, Gemini Flash 2.5 など)
- Best Open: 公開重みモデル (Qwen Coder, GLM 4.6 など)
- Frontier 7/2025: 2025年7月時点の最高モデル
- Best Frontier: GPT-5, Sonnet 4.5 などComposerより高性能なモデル
- Tokens per Second の計算は最新の Anthropicトークナイザー 基準で標準化されている
1件のコメント
Hacker Newsの意見
透明性があまりにも不足していると思う
モデル性能を独自ベンチマークでしか公開しておらず、そのデータすら非公開なので信頼しにくい
RL学習については語っているが、事前学習(pre-training) やファインチューニングの有無など、肝心な情報がまったくない
詳細を公開するか、外部で独立にベンチマークできるようになるまでは、あらゆる主張に懐疑的だ
公開するとそのデータが他のLLMの学習セットに含まれてしまい、科学的妥当性が失われる可能性がある
しかし非公開なら、逆に自分たちに有利なデータだけを選んだ可能性もある
結局は解決の難しいジレンマだ
Cursorは数千件のaccept/rejectデータをリアルタイムで収集しているので、それが最高のフィードバックループになる
ベンチマークより実際のユーザー反応のほうがはるかに有用で、これによってモデルを素早く改善できる
最近はmulti-agent + git tree統合機能も追加され、ユーザー行動を学習シグナルとして活用する構造になっている
こうした競争が市場全体の品質を高め、利用コストも下げる好循環を生むと思う
CursorのTabモデルは今でも最高だと感じる
関連内容は公式ブログ記事によく整理されている
このアプローチをagentic codingモデルにも適用できるなら、本当に面白そうだ
今回のプロジェクトの動機自体が、Tabのようなエージェントを作ろうというアイデアから始まった
私はClaude Codeをほぼ常時起動して使っており、Tabはモデルが完全に行き詰まったときだけ介入する
そうした失敗状況がだんだん減っているのが印象的だ
shift+tabのようなものに変えてほしい
自分でコードを書くたびにAIとインデント競争をしている気分になって不便だ
私はCursorのML研究者で、今回のプロジェクトに参加した
モデルやブログ記事へのフィードバックは歓迎する
ただ、ComposerがオープンモデルをRLでファインチューニングしたものなら、なぜ重みを非公開のままにしているのか気になる
わずかな性能優位はすぐ消えるので、むしろオープン戦略のほうが開発者の信頼を得るには有利だと思う
個人的にはクローズドモデルにはあまり興味がない
以前Cursorを使ってみて諦めたことがあったが、今回のComposer1はGPT5 Codexよりずっと速く、正確だった
速度も品質も良かったので、また使ってみようと思う
モデルをグループ化せず、個別名を表示した版があればもっと公平だったと思う
計画段階はClaudeで行うが、実行段階ではComposerのほうがずっと効率的だ
Sonnet 4.5あたりが私の耐えられる最低品質ラインだ
速度より重要なのは、欲しい出力を得るために格闘しなくて済むことだ
もしかすると私の理解違いかもしれないが、この記事で比較しているモデルはすべてCursor内部モデルなのか気になる
1つはモデルが自律的に長い作業を処理してほしい人、
もう1つはモデルと相互作用しながら協業したい人だ
後者の場合は速度の重要性がずっと高く、前者は知能のほうが重要だ
私にとっては文脈理解不足のほうが大きな問題なので、状況次第だ
Claude以外のモデルを使うとトークンコストが余計にかかり、効率も落ちる
Claude 4.5 Sonnetは同じ作業を半分のコストで片づけてくれる
私は正確さより速いフィードバックを好む
新しいモデルが出たのはうれしいが、グラフに数字やモデル名がないので信頼しにくい
学習の詳細は公開しにくいが、RLがうまくスケールするという結果は得られたとのことだ
みんなCursorに批判的だが、私はCopilot、Claude Code、Codex、Gemini CLI、Clineなど一通り使った結果、Cursorの完成度が最も高かった
速度と安定性が特に優れており、本物の製品のように感じる
リクエストが30秒以上止まることが多く、Claude Codeのほうがずっと速く安定していた
今日新モデルをまた試したが、Composer1は速いものの依然として接続エラーがあった
自分が望むものを素早く実装するにはCursorが最高だ
自動補完もリファクタリング時にかなり役立つ
競合の中で応答完了時間を真剣に扱っているのはCursorだけだ
Cursorはその点で完全に先行している
新システムを使ってみたが、むしろ性能が低下したように感じた
基本的なアプリすらまともに動かず、CSSやターミナルのコンテキスト処理にも失敗していた
速度もだんだん遅くなり、結局Sonnetに戻った
安定化版でないことを願う
私はCursorが本当に好きだ
Copilot、Claudeなどいろいろなツールを使ってきたが、結局またCursorに戻ってくる
特にTab自動補完はリファクタリング作業で非常に正確だ
遅く、提案品質も低かった
Cursorはずっと速く、提案も有用だ
ただ、あまりに速いため、たまに不要な提案を出し続けるのが惜しい
それでも一時停止(snooze) 機能があるので解決できる
Composer 1にはペリカンが自転車に乗る画像がある
画像リンク