用 Auto-review 管理智能體自主權 · Cursor
Cursor 推出了 Auto-review 功能,通過一個分類器智能體在上下文中評估行動的潛在風險,從而實現安全與效率的平衡。該功能默認開啓,僅阻止約 4% 的行動,且僅約 7% 的對話會觸發中斷。
為了在編程和其他任務中發揮最大效率,智能體需要適當的自主權。這意味着它們應該能夠獨立運作、發揮創意,並在不頻繁請求許可的情況下完成工作。然而,更大的自主權也帶來了安全風險,因為智能體可能會採取非預期的行動。對於本地智能體而言尤其如此,它們通常運行在文件、憑據、環境變量和 MCP 工具附近,並可訪問生產系統。
簡單的解決方案是在任何行動前詢問用户,但過於頻繁地請求許可本身也會產生安全問題。經過多次重複提示後,用户會不再仔細閲讀,審批流程也就失去了意義。
本週,Cursor 推出了 Auto-review,它使關於智能體自主權的決策更像一個旋鈕而非開關。其核心思想是:當風險較低時,智能體可以自由行動;但當其下一步行動跨越了有意義的邊界時,則應放慢速度。
為了確定某個行動處於該連續體的哪個位置,Cursor 使用了一個專門的分類器智能體,它在行動執行前在其上下文中進行審查。構建這一系統意味着要將直覺轉化為一個可操作的模型,包含後果、意圖和反饋,並能夠針對真實智能體行為進行測試。
在上下文中判斷風險
智能體行動是否構成風險取決於具體情況。同樣的命令在一個工作流中可能無害,在另一箇中則不可接受。關鍵在於行動、用户請求以及錯誤後果之間的關係。
這一認識促使 Cursor 開發了一個“分類器”智能體來管理整體智能體自主權。他們希望它是一個小型模型,以保持快速和低成本的同時,仍能對下一步行動是否與用户意圖一致做出細緻判斷。
分類器的核心規則是:當安全風險較低時,應更寬鬆;當風險較高時,應更謹慎。基於這一寬泛理解,開發團隊開始將分類器構建為一個快速、上下文相關的審查者,直接嵌入智能體的執行路徑中。
構建分類器
第一個技術決策是模型選擇。分類器在工具調用執行前運行,因此它直接位於智能體循環中,需要兼具速度和準確性。作為一家多模型公司,Cursor 能夠嘗試多種模型和推理模式,然後選擇在速度和判斷之間達到最佳平衡的模型。
一個早期的意外發現是,低推理模型並不總是更快。當模型難以理解策略或工具調用時,它可能會花費更多時間和 token 來尋找最終更差的答案。更好的折衷是使用一個小型但具備足夠推理能力的模型來清晰地做出決策。
此外,分類器也是智能體化的,因為某些行動無法僅從命令本身判斷。例如,像 python script.py 這樣的命令可能安全也可能不安全,具體取決於文件內容,因此分類器可以在決定前使用 ReadFile、Grep、Glob 和 ListDir 等工具檢查工作空間。
Cursor 避免了單獨的分類端點,因為額外的往返會在每次審查的工具調用前增加延遲。相反,分類器與父智能體運行在同一個 RPC 流中,採用類似於子智能體的架構。
設計反饋循環
接下來的決策是阻止行動後應該做什麼。Cursor 不希望分類器成為另一個批准提示生成器。當分類器阻止一個行動時,它會向父智能體返回解釋,父智能體通常可以利用該反饋選擇更安全的路徑,而無需中斷用户。
用户意圖使這種反饋變得有用。問題不在於一個行動在孤立狀態下看起來是否有風險,而在於該行動是否基於用户要求智能體做的事情。這使正常的開發工作能夠繼續進行,而需要更高後果的行動則要求用户給出更明確的信號。
這種設計只有在分類器針對應該放行和應該阻止的行動進行調整時才有效,因此開發者需要涵蓋兩方面的評估數據。
測試分類器
第一組評估數據來自內部使用日誌,以瞭解智能體工作的正常形態。分類器必須捕獲風險行動而不干擾日常開發工作,內部會話是瞭解基線的最佳方式。開發者從大約 12 小時的內部開發者會話開始,然後精簡併去重常見行動,最終得到 6,122 個標記行。
此外,還需要合成數據,因為最壞的情況在正常使用中並不常見。開發者生成了智能體可能讀取機密、接觸生產數據、遵循不可信指令或採取具有重大副作用行動的情況。這些例子涵蓋了分類器最希望捕獲的失敗情況。
隨着學習的深入,策略發生了變化,這使數據工作更加複雜。當分類器應識別的行為類別改變時,必須重新標記或重新生成評估集。否則,將用過時的理解來測試當前的分類器。
評估通過生產環境中使用的相同後端分類器循環運行。這允許測試完整路徑,包括工具使用、最終分類、模型覆蓋和解析失敗。評估檢查最終的允許/阻止決策,以及分類器在需要檢查工作空間進行決策時所使用的上下文。
開發者還檢查了“抖動”現象。如果同一個案例允許六次、阻止四次,通常意味着策略或提示説明不夠明確。重複運行可以找到這些不穩定的情況,並收緊分類器,直到其行為更加一致。
儘量減少直接阻止
在實踐中,只有一小部分智能體行動需要由分類器審查。許多命令已經通過了允許列表或沙盒,因此分類器主要在需要上下文判斷時運行。
當分類器運行時,目前阻止約 4% 的行動,但阻止並不立即變成用户提示。分類器將解釋發送回父智能體,父智能體通常可以縮小行動範圍、選擇不同的工具,或完全避免風險步驟。
來自分類器的部分阻止會變成用户中斷,但在全局範圍內,Auto-review 模式下只有約 7% 的對話會導致至少一次中斷。作為對比,一些企業客户之前在其組織內有約 40% 的行動被阻止。
這些早期數據與產品的主要行為目標一致。分類器很少直接中斷用户,在大多數被阻止的情況下,父智能體可以利用反饋以更安全、更窄的方式繼續工作。
完善智能體自主權
Auto-review 仍處於早期階段,隨着智能體能力的增強,對自主權連續體的理解也將不斷變化。目前,它專注於桌面應用中的本地智能體,預計同樣的理念將隨着時間的推移影響更多場景中智能體自主權的管理。
Cursor 希望智能體擁有真正的自主權,同時根據上下文而非單一全局權限設置來決定是否放慢它們的速度。分類器提高了安全性,而不會將自主權變回一系列的批准提示。它捕獲需要更多審查的行動,向父智能體提供反饋,並在存在更安全路徑時讓智能體繼續工作。
Auto-review 現在是新用户的默認設置。對於現有用户,可以在“設置 > 智能體”中啓用。
相關文章:
2026 年 2 月 18 日 · 研究 為本地智能體實現安全沙盒 Ani, Yash & Alex · 6 分鐘閲讀
2026 年 6 月 2 日 · 研究 構建雲端智能體所學到的 Josh Ma · 9 分鐘閲讀
2026 年 5 月 18 日 · 研究 介紹 Composer 2.5 Cursor 團隊 · 7 分鐘閲讀
查看更多文章 →