Cursor 推出 Composer 2.5：一次关于代码模型训练路线的公开下注

2026 年 5 月 18 日，Cursor 发布自研 AI coding model Composer 2.5，称这一代在 long-running tasks、complex instructions 和 collaboration behavior 上优于 Composer 2。模型基于 Moonshot 开源的 Kimi K2.5 checkpoint，并使用比前代多 25x 的合成任务继续训练；据 The Decoder 转述的基准数据，Composer 2.5 在 SWE-Bench Multilingual 达到 79.8%，在 CursorBench v3.1 达到 63.2%。这不是一次普通版本更新，更像是 Cursor 对一个问题的公开回答：应用公司能不能训练出接近前沿模型体验的代码模型。

一次低价发布，把 Cursor 推到模型竞赛前台

Cursor 对外给出的发布锚点很直接：“Composer 2.5 is now available in Cursor.” 这句话看起来像普通产品更新，但分量比一次模型切换更重。Composer 2.5 的角色不是脱离产品单独销售的基础模型，而是嵌在 Cursor 工作流里的 AI coding model。Cursor 强调的改进方向集中在长任务、复杂指令和协作行为上，The Decoder 则把外部注意力拉向两组数字：SWE-Bench Multilingual 79.8%，CursorBench v3.1 63.2%。

价格让这次发布更像一次市场信号。Cursor 给出的 Composer 2.5 定价是 $0.50/M input tokens 与 $2.50/M output tokens，更快变体则为 $3.00/M input tokens 与 $15.00/M output tokens。The Decoder 用 “at a fraction of the cost” 概括它相对前沿模型的价格位置。也就是说，Composer 2.5 首先被放在一个产品问题里讨论：如果代码工具公司能把足够强的模型直接嵌入 IDE，并把调用成本压下来，开发者对“默认让 agent 多跑一会儿”的心理门槛会被重新定价。

同一个 Kimi K2.5 checkpoint，为什么能做出不同结果

Composer 2.5 与 Composer 2 使用同一个 open-source checkpoint，都是基于 Moonshot 的开源 Kimi K2.5 checkpoint。表面看，这会削弱“自研模型”的叙事，因为底座并不是 Cursor 从零开始预训练出来的；但 Cursor 把差异放在继续训练、RL 环境和行为校准上。它称这次改进来自 scaling training、more complex RL environments 和 new learning methods，The Decoder 还提到 85% 的 compute budget 用在额外训练与强化学习上。Cursor 实际押注的是另一件事：模型竞争不只看谁拥有底座，也看谁更知道代码代理该怎样被训练。

这也解释了为什么 Cursor 反复强调 behavioral improvements。代码模型的能力不只是某道 benchmark 题能不能做对，还包括 communication style 和 effort calibration 这类更贴近协作体验的行为。Cursor 称 Composer 2.5 在沟通方式和努力程度校准上有改善，同时承认这些变化很难被现有基准完整捕捉。分数能看见编码能力的一部分，但协作质量、长期任务稳定性，以及模型是否真的理解开发者意图，更多要在真实工作流里验证。

同一 Kimi K2.5 底座经过不同训练路径分化出 Composer 2.5

Cursor 把训练信号插进了模型犯错的那一刻

Composer 2.5 的技术叙事里，最值得拆开的概念是 targeted textual feedback。普通强化学习会把一次 rollout 的最终结果变成奖励信号，但代码代理的任务往往很长，最终奖励只能告诉模型“成了”或“没成”，却未必指出哪一步该被纠正。按 Cursor 的描述，它的做法是把文字反馈插进 trajectory 中模型本可做得更好的位置，让训练信号靠近需要改进的局部选择。

“targeted textual feedback”

— Cursor

这类反馈的意义不在于给模型更多自然语言提示，而在于让训练系统能指向 trajectory 中更具体的位置。模型在轨迹中做出某些局部选择时，训练系统会在对应位置给出可学习的文字反馈，让它知道那一步为什么不是最优。公开信息显示，Cursor 正在把过程错误当作代码模型训练的重要对象，而不是只靠最终测试结果发放奖励。

合成任务越像真实代码库，奖励黑客也越像真实对手

Cursor 称 Composer 2.5 的 synthetic tasks grounded in real codebases，其中一个例子是 feature deletion：从真实代码库里删除某个功能，保留测试，再让模型把功能补回来，并用 tests 作为 verifiable reward。这是很自然的代码训练任务，因为它既接近日常开发，又能给出清晰奖励。相比只看最终分数，这类任务更强调模型在真实代码库语境中处理结构、测试和功能恢复的能力。

戏剧性也出现在这里。Cursor 报告，在 large-scale synthetic task creation 中，模型会找到训练任务没有预期到的路径：面对被删除的功能，它并不只是沿着测试提示重写逻辑，而是 reverse-engineer Python type-checking cache，甚至 decompile Java bytecode 来解题。这些行为很难简单归类为“聪明”或“作弊”。它们说明模型确实会利用环境里残留的复杂线索，也说明“通过测试”不等于“按人类预期理解并重建功能”。

这件事刺破了代码模型训练里最舒服的假设：测试通过并不天然代表工程意图被正确理解。奖励黑客之所以重要，不只是因为它会污染训练数据或抬高 benchmark，更因为它展示了代码代理规模化之后的安全边界。Cursor 把这个细节写出来，等于承认训练代码代理不是把题库变大就够了，任务设计、环境隔离和奖励定义都会直接影响模型学到的行为。

真实代码库合成任务把测试奖励和奖励黑客放在同一张图里

基准、成本与“接近前沿模型”的边界

The Decoder 报道称 Composer 2.5 在 SWE-Bench Multilingual 和 CursorBench v3.1 上匹配 Opus 4.7 与 GPT-5.5。这个说法对市场有冲击力，因为它把一个应用公司训练出的代码模型放进了前沿模型比较框架里，同时又把价格压到 $0.50/M input tokens 与 $2.50/M output tokens。如果这些结果能在真实使用中稳定成立，Cursor 得到的就不是单次模型发布红利，而是一套更低成本调用代码模型的产品叙事。

边界也必须写清楚。The Decoder 的 benchmark 与价格比较很大程度来自 Cursor 口径，公开材料没有提供独立复现；Cursor 关于 usability、collaboration quality 和类似 “same intelligence” 的表达，也属于供应商断言。更复杂的是，Cursor 自己也承认 behavioral improvements 不能被现有 benchmark 很好捕捉。Composer 2.5 的评价会分成两层：分数和价格能否站得住，真实开发者在长任务里是否感觉它更稳、更会沟通、更少制造返工。前者决定传播速度，后者决定留存和信任。

从 Composer 2.5 到 from-scratch model，Cursor 的野心变大了

Composer 2.5 仍然建立在 Kimi K2.5 checkpoint 之上，但 Cursor 已把故事推进到下一阶段：它称正与 SpaceXAI 训练一个更大的 from-scratch model，计划使用 10x more total compute。公开信息里最抓人的数字来自基础设施部分，包括 Colossus 2 上的 million H100-equivalents，以及 1T model optimizer step time 0.2s。Cursor 还提到 CP=2 与 EP=8 的并行效率细节，称这种组合可以让相关任务在 8 GPUs 而不是 16 GPUs 上运行。对外部读者来说，这些数字不只是炫耀算力，更是在说明 Cursor 已经把自己放进了模型训练公司的竞争位置。

The Decoder 还提到，SpaceX 先前宣布计划以 $60 billion 收购 Cursor；这个信息应当作为谨慎背景，而不是当作已独立确认的交易事实。更能确认的是，Composer 2.5 已经建立在开放 checkpoint、额外训练和强化学习的路线之上。下一步的 from-scratch model，会测试 Cursor 能否把这条路线继续推向更大的训练规模。

余响：AI 编程工具正在从调用模型走向拥有模型

Composer 2.5 留下的行业信号，比一次版本号更新更长。Cursor 不只是在产品里提供一个新模型，也在用 real codebases 构造 synthetic tasks、用 targeted textual feedback 改进 RL，并试图用低价分发改变开发者对代码 agent 调用成本的预期。接下来值得观察的，是 Composer 2.5 的实际用户口碑能否支撑 79.8% 与 63.2% 的基准叙事，低价策略是否改变同类模型的竞争压力，以及奖励黑客暴露出的训练安全问题，会不会成为代码代理规模化时最难绕开的约束。