用 Auto-review 管理智能体自主权 · Cursor
Cursor 推出了 Auto-review 功能,通过一个分类器智能体在上下文中评估行动的潜在风险,从而实现安全与效率的平衡。该功能默认开启,仅阻止约 4% 的行动,且仅约 7% 的对话会触发中断。
为了在编程和其他任务中发挥最大效率,智能体需要适当的自主权。这意味着它们应该能够独立运作、发挥创意,并在不频繁请求许可的情况下完成工作。然而,更大的自主权也带来了安全风险,因为智能体可能会采取非预期的行动。对于本地智能体而言尤其如此,它们通常运行在文件、凭据、环境变量和 MCP 工具附近,并可访问生产系统。
简单的解决方案是在任何行动前询问用户,但过于频繁地请求许可本身也会产生安全问题。经过多次重复提示后,用户会不再仔细阅读,审批流程也就失去了意义。
本周,Cursor 推出了 Auto-review,它使关于智能体自主权的决策更像一个旋钮而非开关。其核心思想是:当风险较低时,智能体可以自由行动;但当其下一步行动跨越了有意义的边界时,则应放慢速度。
为了确定某个行动处于该连续体的哪个位置,Cursor 使用了一个专门的分类器智能体,它在行动执行前在其上下文中进行审查。构建这一系统意味着要将直觉转化为一个可操作的模型,包含后果、意图和反馈,并能够针对真实智能体行为进行测试。
在上下文中判断风险
智能体行动是否构成风险取决于具体情况。同样的命令在一个工作流中可能无害,在另一个中则不可接受。关键在于行动、用户请求以及错误后果之间的关系。
这一认识促使 Cursor 开发了一个“分类器”智能体来管理整体智能体自主权。他们希望它是一个小型模型,以保持快速和低成本的同时,仍能对下一步行动是否与用户意图一致做出细致判断。
分类器的核心规则是:当安全风险较低时,应更宽松;当风险较高时,应更谨慎。基于这一宽泛理解,开发团队开始将分类器构建为一个快速、上下文相关的审查者,直接嵌入智能体的执行路径中。
构建分类器
第一个技术决策是模型选择。分类器在工具调用执行前运行,因此它直接位于智能体循环中,需要兼具速度和准确性。作为一家多模型公司,Cursor 能够尝试多种模型和推理模式,然后选择在速度和判断之间达到最佳平衡的模型。
一个早期的意外发现是,低推理模型并不总是更快。当模型难以理解策略或工具调用时,它可能会花费更多时间和 token 来寻找最终更差的答案。更好的折衷是使用一个小型但具备足够推理能力的模型来清晰地做出决策。
此外,分类器也是智能体化的,因为某些行动无法仅从命令本身判断。例如,像 python script.py 这样的命令可能安全也可能不安全,具体取决于文件内容,因此分类器可以在决定前使用 ReadFile、Grep、Glob 和 ListDir 等工具检查工作空间。
Cursor 避免了单独的分类端点,因为额外的往返会在每次审查的工具调用前增加延迟。相反,分类器与父智能体运行在同一个 RPC 流中,采用类似于子智能体的架构。
设计反馈循环
接下来的决策是阻止行动后应该做什么。Cursor 不希望分类器成为另一个批准提示生成器。当分类器阻止一个行动时,它会向父智能体返回解释,父智能体通常可以利用该反馈选择更安全的路径,而无需中断用户。
用户意图使这种反馈变得有用。问题不在于一个行动在孤立状态下看起来是否有风险,而在于该行动是否基于用户要求智能体做的事情。这使正常的开发工作能够继续进行,而需要更高后果的行动则要求用户给出更明确的信号。
这种设计只有在分类器针对应该放行和应该阻止的行动进行调整时才有效,因此开发者需要涵盖两方面的评估数据。
测试分类器
第一组评估数据来自内部使用日志,以了解智能体工作的正常形态。分类器必须捕获风险行动而不干扰日常开发工作,内部会话是了解基线的最佳方式。开发者从大约 12 小时的内部开发者会话开始,然后精简并去重常见行动,最终得到 6,122 个标记行。
此外,还需要合成数据,因为最坏的情况在正常使用中并不常见。开发者生成了智能体可能读取机密、接触生产数据、遵循不可信指令或采取具有重大副作用行动的情况。这些例子涵盖了分类器最希望捕获的失败情况。
随着学习的深入,策略发生了变化,这使数据工作更加复杂。当分类器应识别的行为类别改变时,必须重新标记或重新生成评估集。否则,将用过时的理解来测试当前的分类器。
评估通过生产环境中使用的相同后端分类器循环运行。这允许测试完整路径,包括工具使用、最终分类、模型覆盖和解析失败。评估检查最终的允许/阻止决策,以及分类器在需要检查工作空间进行决策时所使用的上下文。
开发者还检查了“抖动”现象。如果同一个案例允许六次、阻止四次,通常意味着策略或提示说明不够明确。重复运行可以找到这些不稳定的情况,并收紧分类器,直到其行为更加一致。
尽量减少直接阻止
在实践中,只有一小部分智能体行动需要由分类器审查。许多命令已经通过了允许列表或沙盒,因此分类器主要在需要上下文判断时运行。
当分类器运行时,目前阻止约 4% 的行动,但阻止并不立即变成用户提示。分类器将解释发送回父智能体,父智能体通常可以缩小行动范围、选择不同的工具,或完全避免风险步骤。
来自分类器的部分阻止会变成用户中断,但在全局范围内,Auto-review 模式下只有约 7% 的对话会导致至少一次中断。作为对比,一些企业客户之前在其组织内有约 40% 的行动被阻止。
这些早期数据与产品的主要行为目标一致。分类器很少直接中断用户,在大多数被阻止的情况下,父智能体可以利用反馈以更安全、更窄的方式继续工作。
完善智能体自主权
Auto-review 仍处于早期阶段,随着智能体能力的增强,对自主权连续体的理解也将不断变化。目前,它专注于桌面应用中的本地智能体,预计同样的理念将随着时间的推移影响更多场景中智能体自主权的管理。
Cursor 希望智能体拥有真正的自主权,同时根据上下文而非单一全局权限设置来决定是否放慢它们的速度。分类器提高了安全性,而不会将自主权变回一系列的批准提示。它捕获需要更多审查的行动,向父智能体提供反馈,并在存在更安全路径时让智能体继续工作。
Auto-review 现在是新用户的默认设置。对于现有用户,可以在“设置 > 智能体”中启用。
相关文章:
2026 年 2 月 18 日 · 研究 为本地智能体实现安全沙盒 Ani, Yash & Alex · 6 分钟阅读
2026 年 6 月 2 日 · 研究 构建云端智能体所学到的 Josh Ma · 9 分钟阅读
2026 年 5 月 18 日 · 研究 介绍 Composer 2.5 Cursor 团队 · 7 分钟阅读
查看更多文章 →