2 ポイント 投稿者 GN⁺ 2025-10-30 | 1件のコメント | WhatsAppで共有
  • Cursorが公開した Composer は、ソフトウェアエンジニアリング向けの 高速インテリジェントエージェントモデル で、類似モデルと比べて 4倍速いコード生成速度 を達成
  • 実際の大規模コードベースの問題を解決するよう訓練され、検索・編集ツール を活用してさまざまな難易度の課題を実行
  • Mixture-of-Experts(MoE) 構造と 強化学習(RL) を組み合わせ、コード編集・計画・回答など 長期コンテキストの理解と生成 を支援
  • Cursor Bench 評価を通じて、モデルの正確性だけでなく コードベースの一貫性およびエンジニアリング慣行の遵守 まで測定
  • PyTorch・Rayベースの非同期RLインフラMXFP8低精度学習 を活用し、数千基のGPUで効率的な学習と推論速度の向上を実現

Composer 概要

  • Composerは ソフトウェアエンジニアリングの知能と速度 を目標に開発された新しいエージェントモデル
    • ベンチマークでは類似モデル比で 4倍速いコード生成速度 を記録
    • Cursor内で 大規模コードベース問題解決用エージェント として最適化されている
  • モデルは実環境で 検索および編集ツール を使って、さまざまな難易度の問題を解決するよう訓練されている
    • これにより 高速な対話型開発体験 を提供

開発背景

  • Composerは、Cursorの カスタムコード自動補完モデル(Cursor Tab) の開発経験から生まれた
    • 開発者が 知的でありながら応答の速いモデル を好むことを確認
  • 初期実験モデル Cheetah をベースに、Composerはそれを改良した より速く、より賢いバージョン として設計された
    • 目標は 開発フローを維持しながら即時応答を提供するモデル の構築

モデル構造と学習方式

  • Composerは Mixture-of-Experts(MoE) 言語モデルで、長期コンテキストの理解と生成 を支援
  • 強化学習(RL) により、さまざまな開発環境で特化される
    • 各学習段階で問題説明を受け取り、最適なコード修正・計画・回答 を生成
    • モデルは ファイルの読み取り・編集ターミナルコマンドの実行コードベース全体のセマンティック検索 などのツールを活用
  • RLの過程でモデルは、複雑な検索の実行、リンターエラーの修正、単体テストの作成および実行 といった有用な行動を自律的に学習

評価とベンチマーク

  • Cursor Bench は、実際のエンジニアの要求と最適解を含む内部評価セット
    • モデルの 正確性コードベースの抽象化への準拠ソフトウェアエンジニアリング慣行との一致度 を測定
  • Composerは 「Fast Frontier」 等級のモデルで、効率的な推論を目指す Haiku 4.5、Gemini Flash 2.5 などと比較される
    • GPT-5、Sonnet 4.5 などの 最上位Frontierモデル よりは遅いが、速度に対して高い効率性 を持つ

インフラとシステム設計

  • 大規模MoEモデル学習のため、PyTorchとRayベースの非同期RLインフラ を構築
    • MXFP8 MoEカーネルエキスパート並列化ハイブリッドシャーディングデータ並列化 を組み合わせ
    • 数千基の NVIDIA GPU で通信コストを最小化しつつ学習を拡張
  • MXFP8低精度学習 により 推論速度を向上 し、後処理量子化が不要
  • RL中、モデルはCursor Agentのすべてのツールを呼び出し可能
    • コード編集、セマンティック検索、文字列grep、ターミナルコマンド実行などをサポート
    • そのため 数十万件のクラウドサンドボックス環境 を並列実行
    • 既存の Background Agentsインフラ を拡張して バースト型学習負荷 を処理

内部活用と展開

  • CursorチームはComposerを 自社の開発業務に積極活用
    • 多くのエンジニアが 日常的なソフトウェア開発にComposerを使用
  • 今回の公開を通じて、他の開発者にも有用に活用されることを期待

付録: 内部ベンチマーク分類

  • Fast Frontier: 効率的推論モデル (Haiku 4.5, Gemini Flash 2.5 など)
  • Best Open: 公開重みモデル (Qwen Coder, GLM 4.6 など)
  • Frontier 7/2025: 2025年7月時点の最高モデル
  • Best Frontier: GPT-5, Sonnet 4.5 などComposerより高性能なモデル
  • Tokens per Second の計算は最新の Anthropicトークナイザー 基準で標準化されている

1件のコメント

 
GN⁺ 2025-10-30
Hacker Newsの意見
  • 透明性があまりにも不足していると思う
    モデル性能を独自ベンチマークでしか公開しておらず、そのデータすら非公開なので信頼しにくい
    RL学習については語っているが、事前学習(pre-training) やファインチューニングの有無など、肝心な情報がまったくない
    詳細を公開するか、外部で独立にベンチマークできるようになるまでは、あらゆる主張に懐疑的だ

    • 内部ベンチマークを公開しない理由は理解できる
      公開するとそのデータが他のLLMの学習セットに含まれてしまい、科学的妥当性が失われる可能性がある
      しかし非公開なら、逆に自分たちに有利なデータだけを選んだ可能性もある
      結局は解決の難しいジレンマだ
    • 実際に重要なのは実ユーザーデータだと思う
      Cursorは数千件のaccept/rejectデータをリアルタイムで収集しているので、それが最高のフィードバックループになる
      ベンチマークより実際のユーザー反応のほうがはるかに有用で、これによってモデルを素早く改善できる
      最近はmulti-agent + git tree統合機能も追加され、ユーザー行動を学習シグナルとして活用する構造になっている
      こうした競争が市場全体の品質を高め、利用コストも下げる好循環を生むと思う
  • CursorのTabモデルは今でも最高だと感じる
    関連内容は公式ブログ記事によく整理されている
    このアプローチをagentic codingモデルにも適用できるなら、本当に面白そうだ

    • うちのチームもTabをよく使っている
      今回のプロジェクトの動機自体が、Tabのようなエージェントを作ろうというアイデアから始まった
    • Windsurfsを使ったことがあるか気になる
    • Tabモデルは良いが、まるでより良い馬車のむちを作る競争のようだという気もする
      私はClaude Codeをほぼ常時起動して使っており、Tabはモデルが完全に行き詰まったときだけ介入する
      そうした失敗状況がだんだん減っているのが印象的だ
    • Tabモデルは素晴らしいが、現在会話しているAIチャットセッションの文脈を理解できない点が惜しい
    • 機能は良いがショートカットが惜しい
      shift+tabのようなものに変えてほしい
      自分でコードを書くたびにAIとインデント競争をしている気分になって不便だ
  • 私はCursorのML研究者で、今回のプロジェクトに参加した
    モデルやブログ記事へのフィードバックは歓迎する

    • システム説明は印象的だった
      ただ、ComposerがオープンモデルをRLでファインチューニングしたものなら、なぜ重みを非公開のままにしているのか気になる
      わずかな性能優位はすぐ消えるので、むしろオープン戦略のほうが開発者の信頼を得るには有利だと思う
      個人的にはクローズドモデルにはあまり興味がない
    • 本当に驚いた
      以前Cursorを使ってみて諦めたことがあったが、今回のComposer1はGPT5 Codexよりずっと速く、正確だった
      速度も品質も良かったので、また使ってみようと思う
    • ブログ最初のグラフがあまりにも曖昧だった
      モデルをグループ化せず、個別名を表示した版があればもっと公平だったと思う
    • 今日一日Composer、Sonnet 4.5、Gemini 2.5 Proを一緒に使ってみたが、Composerの速度と品質の組み合わせが最も満足できた
      計画段階はClaudeで行うが、実行段階ではComposerのほうがずっと効率的だ
    • ロググラフを見ると、フロンティアモデルに到達するにはおよそ50%ほど追加の計算が必要に見えるが、なぜそこで学習を止めたのか気になる
  • Sonnet 4.5あたりが私の耐えられる最低品質ライン
    速度より重要なのは、欲しい出力を得るために格闘しなくて済むことだ
    もしかすると私の理解違いかもしれないが、この記事で比較しているモデルはすべてCursor内部モデルなのか気になる

    • Sonnet 4.5が出てまだ1か月しかたっていないのに、もうそれを「最低ライン」と見ているのが面白い
    • ユーザーには2つのタイプがあると思う
      1つはモデルが自律的に長い作業を処理してほしい人、
      もう1つはモデルと相互作用しながら協業したい人だ
      後者の場合は速度の重要性がずっと高く、前者は知能のほうが重要だ
      私にとっては文脈理解不足のほうが大きな問題なので、状況次第だ
    • Sonnet 4.5は素晴らしいが、Composerも使ってみたのか気になる
    • 私も似ている
      Claude以外のモデルを使うとトークンコストが余計にかかり、効率も落ちる
      Claude 4.5 Sonnetは同じ作業を半分のコストで片づけてくれる
    • 比較を持ち出した理由は、Cursorが速度重視のユーザー体験をどれだけ真剣に扱っているかを示すためだ
      私は正確さより速いフィードバックを好む
  • 新しいモデルが出たのはうれしいが、グラフに数字やモデル名がないので信頼しにくい

    • 脚注にモデル関連の説明はある
      学習の詳細は公開しにくいが、RLがうまくスケールするという結果は得られたとのことだ
  • みんなCursorに批判的だが、私はCopilot、Claude Code、Codex、Gemini CLI、Clineなど一通り使った結果、Cursorの完成度が最も高かった
    速度と安定性が特に優れており、本物の製品のように感じる

    • 私もCursorを使っていたが、信頼性の問題でやめた
      リクエストが30秒以上止まることが多く、Claude Codeのほうがずっと速く安定していた
      今日新モデルをまた試したが、Composer1は速いものの依然として接続エラーがあった
    • 私もいろいろなツールを試したが、結局Cursorに戻ってきた
      自分が望むものを素早く実装するにはCursorが最高だ
    • Cursorはたまに止まるが、UIで簡単に巻き戻せるので不便ではない
      自動補完もリファクタリング時にかなり役立つ
    • いろいろな代替を試したと言うが、Zedは使っていないのか?
    • Claudeを使ってみてもなおCursorを好むというのは興味深い
  • 競合の中で応答完了時間を真剣に扱っているのはCursorだけだ
    Cursorはその点で完全に先行している

    • 私たちもさまざまなモデルが好きだが、速くて賢いバランス点を見つけることが重要だと考えている(Cursor研究者)
  • 新システムを使ってみたが、むしろ性能が低下したように感じた
    基本的なアプリすらまともに動かず、CSSやターミナルのコンテキスト処理にも失敗していた
    速度もだんだん遅くなり、結局Sonnetに戻った
    安定化版でないことを願う

  • 私はCursorが本当に好きだ
    Copilot、Claudeなどいろいろなツールを使ってきたが、結局またCursorに戻ってくる
    特にTab自動補完はリファクタリング作業で非常に正確だ

    • 1か月前にVS Code + Copilotへ戻ってみたが、4日で諦めた
      遅く、提案品質も低かった
      Cursorはずっと速く、提案も有用だ
      ただ、あまりに速いため、たまに不要な提案を出し続けるのが惜しい
      それでも一時停止(snooze) 機能があるので解決できる
  • Composer 1にはペリカンが自転車に乗る画像がある
    画像リンク

    • 思ったよりずっと良くできていた