2026-06-24 05:01 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 05:07 UTC+8

AI助手的審批提示何時成為安全邊界？

一位安全研究人員向開源AI專案Hermes Agent提交了三個審批繞過漏洞，但專案方在報告提交後修改了安全策略，將審批提示從安全邊界重新定義為非邊界啟發式方法，並以此為由關閉了報告。文章討論了行業中對審批提示安全形色的不一致看法，並提出了一個關鍵問題：在預設部署中，人工確認步驟究竟是安全控制還是便利工具？

來源Hacker News AI作者: nrig

一位安全研究人員近日披露了關於開源AI代理專案Hermes Agent（由Nous Research開發）的三個安全發現，這些發現揭示了在AI代理審批提示中存在的潛在安全漏洞。然而，專案方在收到報告後修改了安全策略，將這些發現重新歸類為超出範圍，引發了關於AI代理安全邊界定義的行業討論。

研究人員指出，Hermes Agent的審批系統旨在阻止危險命令的執行，但存在三種繞過方式。首先，在可選的“智慧”審批模式下，第二個大語言模型被用於判斷被標記的命令，但輸入的命令被直接插入到評審模型的提示中，沒有語義隔離，使得注入的文本可以誤導模型批准危險操作。其次，代理的啟動鉤子目錄中任何Python檔案都會在啟動時自動執行，無需註冊或驗證，這意味著透過提示注入，攻擊者可以在不觸發審批的情況下寫入惡意檔案，導致下次啟動時執行任意程式碼。最後，審批系統的檢測機制基於原始命令字串的正則匹配，而非解析後的令牌，因此攻擊者可以使用引號、變數間接引用、替代shell二進位制檔案等方式輕鬆繞過檢測，執行相同危險操作。

研究人員在提交報告時，專案方的安全政策明確將審批系統稱為“核心安全邊界”，並明確將“導致審批系統實際繞過的提示注入”列入範圍。然而，六天後，政策被重寫，將審批提示重新定義為非邊界的啟發式方法，並移除了相關條款。研究人員的報告隨後被關閉，理由是不再屬於範圍，但專案方未提及政策變更。

這一事件凸顯了行業中的不一致性。例如，Anthropic將Claude Code中類似的命令解析錯誤評為高危漏洞（CVE-2026-24887），併發布了修復，儘管他們同樣推薦使用沙箱作為真正的安全邊界。兩個專案處理同一類漏洞的方式截然相反，表明“沙箱是真正邊界”與“審批繞過是漏洞”這兩種立場並非互斥，但政策決定了實際修復與否。

研究人員強調，這些漏洞在預設的本地後端配置中至關重要，此時沒有沙箱保護，使用者依賴審批提示作為唯一安全機制。隨著AI代理越來越多地獲得真實shell訪問許可權，人工確認步驟究竟是安全控制還是便利工具，這一問題將直接決定哪些漏洞被修復、獲得CVE或被關閉。