AI助手的審批提示何時成為安全邊界?
一位安全研究人員向開源AI專案Hermes Agent提交了三個審批繞過漏洞,但專案方在報告提交後修改了安全策略,將審批提示從安全邊界重新定義為非邊界啟發式方法,並以此為由關閉了報告。文章討論了行業中對審批提示安全形色的不一致看法,並提出了一個關鍵問題:在預設部署中,人工確認步驟究竟是安全控制還是便利工具?
一位安全研究人員近日披露了關於開源AI代理專案Hermes Agent(由Nous Research開發)的三個安全發現,這些發現揭示了在AI代理審批提示中存在的潛在安全漏洞。然而,專案方在收到報告後修改了安全策略,將這些發現重新歸類為超出範圍,引發了關於AI代理安全邊界定義的行業討論。
研究人員指出,Hermes Agent的審批系統旨在阻止危險命令的執行,但存在三種繞過方式。首先,在可選的“智慧”審批模式下,第二個大語言模型被用於判斷被標記的命令,但輸入的命令被直接插入到評審模型的提示中,沒有語義隔離,使得注入的文本可以誤導模型批准危險操作。其次,代理的啟動鉤子目錄中任何Python檔案都會在啟動時自動執行,無需註冊或驗證,這意味著透過提示注入,攻擊者可以在不觸發審批的情況下寫入惡意檔案,導致下次啟動時執行任意程式碼。最後,審批系統的檢測機制基於原始命令字串的正則匹配,而非解析後的令牌,因此攻擊者可以使用引號、變數間接引用、替代shell二進位制檔案等方式輕鬆繞過檢測,執行相同危險操作。
研究人員在提交報告時,專案方的安全政策明確將審批系統稱為“核心安全邊界”,並明確將“導致審批系統實際繞過的提示注入”列入範圍。然而,六天後,政策被重寫,將審批提示重新定義為非邊界的啟發式方法,並移除了相關條款。研究人員的報告隨後被關閉,理由是不再屬於範圍,但專案方未提及政策變更。
這一事件凸顯了行業中的不一致性。例如,Anthropic將Claude Code中類似的命令解析錯誤評為高危漏洞(CVE-2026-24887),併發布了修復,儘管他們同樣推薦使用沙箱作為真正的安全邊界。兩個專案處理同一類漏洞的方式截然相反,表明“沙箱是真正邊界”與“審批繞過是漏洞”這兩種立場並非互斥,但政策決定了實際修復與否。
研究人員強調,這些漏洞在預設的本地後端配置中至關重要,此時沒有沙箱保護,使用者依賴審批提示作為唯一安全機制。隨著AI代理越來越多地獲得真實shell訪問許可權,人工確認步驟究竟是安全控制還是便利工具,這一問題將直接決定哪些漏洞被修復、獲得CVE或被關閉。