AI News HubLIVE
站内改写4 分鐘閱讀

用 Auto-review 管理智慧體自主權 · Cursor

Cursor 推出了 Auto-review 功能,透過一個分類器智慧體在上下文中評估行動的潛在風險,從而實現安全與效率的平衡。該功能預設開啟,僅阻止約 4% 的行動,且僅約 7% 的對話會觸發中斷。

為了在程式設計和其他任務中發揮最大效率,智慧體需要適當的自主權。這意味著它們應該能夠獨立運作、發揮創意,並在不頻繁請求許可的情況下完成工作。然而,更大的自主權也帶來了安全風險,因為智慧體可能會採取非預期的行動。對於本地智慧體而言尤其如此,它們通常執行在檔案、憑據、環境變數和 MCP 工具附近,並可訪問生產系統。

簡單的解決方案是在任何行動前詢問使用者,但過於頻繁地請求許可本身也會產生安全問題。經過多次重複提示後,使用者會不再仔細閱讀,審批流程也就失去了意義。

本週,Cursor 推出了 Auto-review,它使關於智慧體自主權的決策更像一個旋鈕而非開關。其核心思想是:當風險較低時,智慧體可以自由行動;但當其下一步行動跨越了有意義的邊界時,則應放慢速度。

為了確定某個行動處於該連續體的哪個位置,Cursor 使用了一個專門的分類器智慧體,它在行動執行前在其上下文中進行審查。構建這一系統意味著要將直覺轉化為一個可操作的模型,包含後果、意圖和反饋,並能夠針對真實智慧體行為進行測試。

在上下文中判斷風險

智慧體行動是否構成風險取決於具體情況。同樣的命令在一個工作流中可能無害,在另一箇中則不可接受。關鍵在於行動、使用者請求以及錯誤後果之間的關係。

這一認識促使 Cursor 開發了一個“分類器”智慧體來管理整體智慧體自主權。他們希望它是一個小型模型,以保持快速和低成本的同時,仍能對下一步行動是否與使用者意圖一致做出細緻判斷。

分類器的核心規則是:當安全風險較低時,應更寬鬆;當風險較高時,應更謹慎。基於這一寬泛理解,開發團隊開始將分類器構建為一個快速、上下文相關的審查者,直接嵌入智慧體的執行路徑中。

構建分類器

第一個技術決策是模型選擇。分類器在工具呼叫執行前執行,因此它直接位於智慧體迴圈中,需要兼具速度和準確性。作為一家多模型公司,Cursor 能夠嘗試多種模型和推理模式,然後選擇在速度和判斷之間達到最佳平衡的模型。

一個早期的意外發現是,低推理模型並不總是更快。當模型難以理解策略或工具呼叫時,它可能會花費更多時間和 token 來尋找最終更差的答案。更好的折衷是使用一個小型但具備足夠推理能力的模型來清晰地做出決策。

此外,分類器也是智慧體化的,因為某些行動無法僅從命令本身判斷。例如,像 python script.py 這樣的命令可能安全也可能不安全,具體取決於檔案內容,因此分類器可以在決定前使用 ReadFile、Grep、Glob 和 ListDir 等工具檢查工作空間。

Cursor 避免了單獨的分類端點,因為額外的往返會在每次審查的工具呼叫前增加延遲。相反,分類器與父智慧體執行在同一個 RPC 流中,採用類似於子智慧體的架構。

設計反饋迴圈

接下來的決策是阻止行動後應該做什麼。Cursor 不希望分類器成為另一個批准提示生成器。當分類器阻止一個行動時,它會向父智慧體返回解釋,父智慧體通常可以利用該反饋選擇更安全的路徑,而無需中斷使用者。

使用者意圖使這種反饋變得有用。問題不在於一個行動在孤立狀態下看起來是否有風險,而在於該行動是否基於使用者要求智慧體做的事情。這使正常的開發工作能夠繼續進行,而需要更高後果的行動則要求使用者給出更明確的訊號。

這種設計只有在分類器針對應該放行和應該阻止的行動進行調整時才有效,因此開發者需要涵蓋兩方面的評估資料。

測試分類器

第一組評估資料來自內部使用日誌,以瞭解智慧體工作的正常形態。分類器必須捕獲風險行動而不干擾日常開發工作,內部會話是瞭解基線的最佳方式。開發者從大約 12 小時的內部開發者會話開始,然後精簡併去重常見行動,最終得到 6,122 個標記行。

此外,還需要合成資料,因為最壞的情況在正常使用中並不常見。開發者生成了智慧體可能讀取機密、接觸生產資料、遵循不可信指令或採取具有重大副作用行動的情況。這些例子涵蓋了分類器最希望捕獲的失敗情況。

隨著學習的深入,策略發生了變化,這使資料工作更加複雜。當分類器應識別的行為類別改變時,必須重新標記或重新生成評估集。否則,將用過時的理解來測試當前的分類器。

評估透過生產環境中使用的相同後端分類器迴圈執行。這允許測試完整路徑,包括工具使用、最終分類、模型覆蓋和解析失敗。評估檢查最終的允許/阻止決策,以及分類器在需要檢查工作空間進行決策時所使用的上下文。

開發者還檢查了“抖動”現象。如果同一個案例允許六次、阻止四次,通常意味著策略或提示說明不夠明確。重複執行可以找到這些不穩定的情況,並收緊分類器,直到其行為更加一致。

儘量減少直接阻止

在實踐中,只有一小部分智慧體行動需要由分類器審查。許多命令已經透過了允許列表或沙盒,因此分類器主要在需要上下文判斷時執行。

當分類器執行時,目前阻止約 4% 的行動,但阻止並不立即變成使用者提示。分類器將解釋傳送回父智慧體,父智慧體通常可以縮小行動範圍、選擇不同的工具,或完全避免風險步驟。

來自分類器的部分阻止會變成使用者中斷,但在全域性範圍內,Auto-review 模式下只有約 7% 的對話會導致至少一次中斷。作為對比,一些企業客戶之前在其組織內有約 40% 的行動被阻止。

這些早期資料與產品的主要行為目標一致。分類器很少直接中斷使用者,在大多數被阻止的情況下,父智慧體可以利用反饋以更安全、更窄的方式繼續工作。

完善智慧體自主權

Auto-review 仍處於早期階段,隨著智慧體能力的增強,對自主權連續體的理解也將不斷變化。目前,它專注於桌面應用中的本地智慧體,預計同樣的理念將隨著時間的推移影響更多場景中智慧體自主權的管理。

Cursor 希望智慧體擁有真正的自主權,同時根據上下文而非單一全域性許可權設定來決定是否放慢它們的速度。分類器提高了安全性,而不會將自主權變回一系列的批准提示。它捕獲需要更多審查的行動,向父智慧體提供反饋,並在存在更安全路徑時讓智慧體繼續工作。

Auto-review 現在是新使用者的預設設定。對於現有使用者,可以在“設定 > 智慧體”中啟用。

相關文章:

2026 年 2 月 18 日 · 研究 為本地智慧體實現安全沙盒 Ani, Yash & Alex · 6 分鐘閱讀

2026 年 6 月 2 日 · 研究 構建雲端智慧體所學到的 Josh Ma · 9 分鐘閱讀

2026 年 5 月 18 日 · 研究 介紹 Composer 2.5 Cursor 團隊 · 7 分鐘閱讀

檢視更多文章 →