Composer: 強化学習で構築した高速フロンティアモデル

(cursor.com)

2 ポイント投稿者 GN⁺ 2025-10-30 | 1件のコメント | WhatsAppで共有

Cursorが公開した Composer は、ソフトウェアエンジニアリング向けの 高速インテリジェントエージェントモデル で、類似モデルと比べて 4倍速いコード生成速度 を達成
実際の大規模コードベースの問題を解決するよう訓練され、検索・編集ツール を活用してさまざまな難易度の課題を実行
Mixture-of-Experts(MoE) 構造と 強化学習(RL) を組み合わせ、コード編集・計画・回答など 長期コンテキストの理解と生成 を支援
Cursor Bench 評価を通じて、モデルの正確性だけでなく コードベースの一貫性およびエンジニアリング慣行の遵守 まで測定
PyTorch・Rayベースの非同期RLインフラ と MXFP8低精度学習 を活用し、数千基のGPUで効率的な学習と推論速度の向上を実現

Composer 概要

Composerは ソフトウェアエンジニアリングの知能と速度 を目標に開発された新しいエージェントモデル
- ベンチマークでは類似モデル比で 4倍速いコード生成速度 を記録
- Cursor内で 大規模コードベース問題解決用エージェント として最適化されている
モデルは実環境で 検索および編集ツール を使って、さまざまな難易度の問題を解決するよう訓練されている
- これにより 高速な対話型開発体験 を提供

開発背景

Composerは、Cursorの カスタムコード自動補完モデル(Cursor Tab) の開発経験から生まれた
- 開発者が 知的でありながら応答の速いモデル を好むことを確認
初期実験モデル Cheetah をベースに、Composerはそれを改良した より速く、より賢いバージョン として設計された
- 目標は 開発フローを維持しながら即時応答を提供するモデル の構築

モデル構造と学習方式

Composerは Mixture-of-Experts(MoE) 言語モデルで、長期コンテキストの理解と生成 を支援
強化学習(RL) により、さまざまな開発環境で特化される
- 各学習段階で問題説明を受け取り、最適なコード修正・計画・回答 を生成
- モデルは ファイルの読み取り・編集、ターミナルコマンドの実行、コードベース全体のセマンティック検索 などのツールを活用
RLの過程でモデルは、複雑な検索の実行、リンターエラーの修正、単体テストの作成および実行 といった有用な行動を自律的に学習

評価とベンチマーク

Cursor Bench は、実際のエンジニアの要求と最適解を含む内部評価セット
- モデルの 正確性、コードベースの抽象化への準拠、ソフトウェアエンジニアリング慣行との一致度 を測定
Composerは 「Fast Frontier」 等級のモデルで、効率的な推論を目指す Haiku 4.5、Gemini Flash 2.5 などと比較される
- GPT-5、Sonnet 4.5 などの 最上位Frontierモデル よりは遅いが、速度に対して高い効率性 を持つ

インフラとシステム設計

大規模MoEモデル学習のため、PyTorchとRayベースの非同期RLインフラ を構築
- MXFP8 MoEカーネル、エキスパート並列化、ハイブリッドシャーディングデータ並列化 を組み合わせ
- 数千基の NVIDIA GPU で通信コストを最小化しつつ学習を拡張
MXFP8低精度学習 により 推論速度を向上 し、後処理量子化が不要
RL中、モデルはCursor Agentのすべてのツールを呼び出し可能
- コード編集、セマンティック検索、文字列grep、ターミナルコマンド実行などをサポート
- そのため 数十万件のクラウドサンドボックス環境 を並列実行
- 既存の Background Agentsインフラ を拡張して バースト型学習負荷 を処理

内部活用と展開

CursorチームはComposerを 自社の開発業務に積極活用
- 多くのエンジニアが 日常的なソフトウェア開発にComposerを使用
今回の公開を通じて、他の開発者にも有用に活用されることを期待

付録: 内部ベンチマーク分類

Fast Frontier: 効率的推論モデル (Haiku 4.5, Gemini Flash 2.5 など)
Best Open: 公開重みモデル (Qwen Coder, GLM 4.6 など)
Frontier 7/2025: 2025年7月時点の最高モデル
Best Frontier: GPT-5, Sonnet 4.5 などComposerより高性能なモデル
Tokens per Second の計算は最新の Anthropicトークナイザー 基準で標準化されている

1件のコメント

GN⁺ 2025-10-30

Hacker Newsの意見

透明性があまりにも不足していると思う
モデル性能を独自ベンチマークでしか公開しておらず、そのデータすら非公開なので信頼しにくい
RL学習については語っているが、事前学習(pre-training) やファインチューニングの有無など、肝心な情報がまったくない
詳細を公開するか、外部で独立にベンチマークできるようになるまでは、あらゆる主張に懐疑的だ
- 内部ベンチマークを公開しない理由は理解できる
  公開するとそのデータが他のLLMの学習セットに含まれてしまい、科学的妥当性が失われる可能性がある
  しかし非公開なら、逆に自分たちに有利なデータだけを選んだ可能性もある
  結局は解決の難しいジレンマだ
- 実際に重要なのは実ユーザーデータだと思う
  Cursorは数千件のaccept/rejectデータをリアルタイムで収集しているので、それが最高のフィードバックループになる
  ベンチマークより実際のユーザー反応のほうがはるかに有用で、これによってモデルを素早く改善できる
  最近はmulti-agent + git tree統合機能も追加され、ユーザー行動を学習シグナルとして活用する構造になっている
  こうした競争が市場全体の品質を高め、利用コストも下げる好循環を生むと思う
CursorのTabモデルは今でも最高だと感じる
関連内容は公式ブログ記事によく整理されている
このアプローチをagentic codingモデルにも適用できるなら、本当に面白そうだ
- うちのチームもTabをよく使っている
  今回のプロジェクトの動機自体が、Tabのようなエージェントを作ろうというアイデアから始まった
- Windsurfsを使ったことがあるか気になる
- Tabモデルは良いが、まるでより良い馬車のむちを作る競争のようだという気もする
  私はClaude Codeをほぼ常時起動して使っており、Tabはモデルが完全に行き詰まったときだけ介入する
  そうした失敗状況がだんだん減っているのが印象的だ
- Tabモデルは素晴らしいが、現在会話しているAIチャットセッションの文脈を理解できない点が惜しい
- 機能は良いがショートカットが惜しい
  shift+tabのようなものに変えてほしい
  自分でコードを書くたびにAIとインデント競争をしている気分になって不便だ
私はCursorのML研究者で、今回のプロジェクトに参加した
モデルやブログ記事へのフィードバックは歓迎する
- システム説明は印象的だった
  ただ、ComposerがオープンモデルをRLでファインチューニングしたものなら、なぜ重みを非公開のままにしているのか気になる
  わずかな性能優位はすぐ消えるので、むしろオープン戦略のほうが開発者の信頼を得るには有利だと思う
  個人的にはクローズドモデルにはあまり興味がない
- 本当に驚いた
  以前Cursorを使ってみて諦めたことがあったが、今回のComposer1はGPT5 Codexよりずっと速く、正確だった
  速度も品質も良かったので、また使ってみようと思う
- ブログ最初のグラフがあまりにも曖昧だった
  モデルをグループ化せず、個別名を表示した版があればもっと公平だったと思う
- 今日一日Composer、Sonnet 4.5、Gemini 2.5 Proを一緒に使ってみたが、Composerの速度と品質の組み合わせが最も満足できた
  計画段階はClaudeで行うが、実行段階ではComposerのほうがずっと効率的だ
- ロググラフを見ると、フロンティアモデルに到達するにはおよそ50%ほど追加の計算が必要に見えるが、なぜそこで学習を止めたのか気になる
Sonnet 4.5あたりが私の耐えられる最低品質ラインだ
速度より重要なのは、欲しい出力を得るために格闘しなくて済むことだ
もしかすると私の理解違いかもしれないが、この記事で比較しているモデルはすべてCursor内部モデルなのか気になる
- Sonnet 4.5が出てまだ1か月しかたっていないのに、もうそれを「最低ライン」と見ているのが面白い
- ユーザーには2つのタイプがあると思う
  1つはモデルが自律的に長い作業を処理してほしい人、
  もう1つはモデルと相互作用しながら協業したい人だ
  後者の場合は速度の重要性がずっと高く、前者は知能のほうが重要だ
  私にとっては文脈理解不足のほうが大きな問題なので、状況次第だ
- Sonnet 4.5は素晴らしいが、Composerも使ってみたのか気になる
- 私も似ている
  Claude以外のモデルを使うとトークンコストが余計にかかり、効率も落ちる
  Claude 4.5 Sonnetは同じ作業を半分のコストで片づけてくれる
- 比較を持ち出した理由は、Cursorが速度重視のユーザー体験をどれだけ真剣に扱っているかを示すためだ
  私は正確さより速いフィードバックを好む
新しいモデルが出たのはうれしいが、グラフに数字やモデル名がないので信頼しにくい
- 脚注にモデル関連の説明はある
  学習の詳細は公開しにくいが、RLがうまくスケールするという結果は得られたとのことだ
みんなCursorに批判的だが、私はCopilot、Claude Code、Codex、Gemini CLI、Clineなど一通り使った結果、Cursorの完成度が最も高かった
速度と安定性が特に優れており、本物の製品のように感じる
- 私もCursorを使っていたが、信頼性の問題でやめた
  リクエストが30秒以上止まることが多く、Claude Codeのほうがずっと速く安定していた
  今日新モデルをまた試したが、Composer1は速いものの依然として接続エラーがあった
- 私もいろいろなツールを試したが、結局Cursorに戻ってきた
  自分が望むものを素早く実装するにはCursorが最高だ
- Cursorはたまに止まるが、UIで簡単に巻き戻せるので不便ではない
  自動補完もリファクタリング時にかなり役立つ
- いろいろな代替を試したと言うが、Zedは使っていないのか？
- Claudeを使ってみてもなおCursorを好むというのは興味深い
競合の中で応答完了時間を真剣に扱っているのはCursorだけだ
Cursorはその点で完全に先行している
- 私たちもさまざまなモデルが好きだが、速くて賢いバランス点を見つけることが重要だと考えている（Cursor研究者）
新システムを使ってみたが、むしろ性能が低下したように感じた
基本的なアプリすらまともに動かず、CSSやターミナルのコンテキスト処理にも失敗していた
速度もだんだん遅くなり、結局Sonnetに戻った
安定化版でないことを願う
私はCursorが本当に好きだ
Copilot、Claudeなどいろいろなツールを使ってきたが、結局またCursorに戻ってくる
特にTab自動補完はリファクタリング作業で非常に正確だ
- 1か月前にVS Code + Copilotへ戻ってみたが、4日で諦めた
  遅く、提案品質も低かった
  Cursorはずっと速く、提案も有用だ
  ただ、あまりに速いため、たまに不要な提案を出し続けるのが惜しい
  それでも一時停止(snooze) 機能があるので解決できる
Composer 1にはペリカンが自転車に乗る画像がある
画像リンク
- 思ったよりずっと良くできていた

Composer: 強化学習で構築した高速フロンティアモデル

Composer 概要

開発背景

モデル構造と学習方式

評価とベンチマーク

インフラとシステム設計

内部活用と展開

付録: 内部ベンチマーク分類

関連記事

1件のコメント

Hacker Newsの意見