AI News HubLIVE
站内改写

Show HN: OWASP Agent Memory Guard – 阻止AI代理內存投毒

OWASP Agent Memory Guard 是一個運行時防禦層,在AI代理的內存讀取和寫入時進行篩查,防止提示注入、秘密泄漏和完整性篡改。它是OWASP ASI06內存投毒攻擊的參考實現,支持LangChain、OpenAI Agents等多種框架。

隨着AI代理在各行業廣泛應用,其安全性成為不容忽視的問題。其中,內存投毒攻擊是一種新興威脅:攻擊者通過向代理的持久化內存(如RAG索引、對話歷史、向量存儲)中植入惡意內容,可以覆蓋代理指令、竊取用户數據或劫持未來工具調用,且攻擊效果會跨會話持續。傳統的提示注入防禦主要集中在用户輸入過濾,但內存投毒攻擊的是代理的記憶本身,需要不同的防禦策略。

OWASP Agent Memory Guard正是為了解決這一問題而誕生的開源項目。它作為一個運行時防禦層,位於AI代理與其內存存儲之間,對所有讀寫操作進行篩查。項目集成了完整性檢查(SHA-256基線)、威脅檢測(包括提示注入、秘密/PII泄漏、保護鍵修改、大小異常、快速變化攻擊等)、策略執行(通過YAML定義規則,支持允許、編輯、隔離或阻止)以及取證(每次決策生成結構化安全事件,並支持時間點快照回滾)。

在性能方面,團隊使用55個真實攻擊載荷進行基準測試,檢測率(召回率)達到92.5%,精度100%,假陽性率0%,中位延遲僅為59微秒。按攻擊類別看,提示注入和受保護鍵篡改的檢測率均為100%,敏感數據泄漏為83%,大小異常為80%。這些結果展示了該方案的高效性。

安裝和使用非常簡潔:通過pip install agent-memory-guard安裝核心庫後,只需幾行Python代碼即可創建MemoryGuard實例並設置策略。例如,使用Policy.strict()可自動攔截惡意寫入,並支持快照和回滾。項目還提供了針對LangChain的即插即用中間件GuardedChatMessageHistory,以及用於OpenAI Agents SDK、AutoGen、mem0等框架的集成指南。

在架構上,每次寫操作都經過檢測器管道,然後由策略引擎決定動作。此外,項目還引入了內存生命週期治理機制:通過源類來源追蹤(external_tool、user_input、agent_authored、system)和自強化冷卻檢測(SelfReinforcementDetector)來防止代理自我投毒。還提供retire_if功能,支持基於謂詞的條目退役並保留回滾指針。OpenTelemetry導出功能則實現了可觀測性。

項目路線圖顯示,2026年Q2將推出LlamaIndex/CrewAI適配器和Redis/PostgreSQL後端,Q3增加基於機器學習的異常檢測和實時儀表板,Q4達到1.0.0版本並支持多代理安全。作為OWASP孵化項目,它已在GitHub上獲得超過3,900次下載,社區關注度持續上升。