2026-05-31 11:17 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Show HN: OWASP Agent Memory Guard – 阻止AI代理內存投毒

OWASP Agent Memory Guard 是一個運行時防禦層，在AI代理的內存讀取和寫入時進行篩查，防止提示注入、秘密泄漏和完整性篡改。它是OWASP ASI06內存投毒攻擊的參考實現，支持LangChain、OpenAI Agents等多種框架。

來源Hacker News AI作者: vgudur297

隨着AI代理在各行業廣泛應用，其安全性成為不容忽視的問題。其中，內存投毒攻擊是一種新興威脅：攻擊者通過向代理的持久化內存（如RAG索引、對話歷史、向量存儲）中植入惡意內容，可以覆蓋代理指令、竊取用户數據或劫持未來工具調用，且攻擊效果會跨會話持續。傳統的提示注入防禦主要集中在用户輸入過濾，但內存投毒攻擊的是代理的記憶本身，需要不同的防禦策略。

OWASP Agent Memory Guard正是為了解決這一問題而誕生的開源項目。它作為一個運行時防禦層，位於AI代理與其內存存儲之間，對所有讀寫操作進行篩查。項目集成了完整性檢查（SHA-256基線）、威脅檢測（包括提示注入、秘密/PII泄漏、保護鍵修改、大小異常、快速變化攻擊等）、策略執行（通過YAML定義規則，支持允許、編輯、隔離或阻止）以及取證（每次決策生成結構化安全事件，並支持時間點快照回滾）。

在性能方面，團隊使用55個真實攻擊載荷進行基準測試，檢測率（召回率）達到92.5%，精度100%，假陽性率0%，中位延遲僅為59微秒。按攻擊類別看，提示注入和受保護鍵篡改的檢測率均為100%，敏感數據泄漏為83%，大小異常為80%。這些結果展示了該方案的高效性。

安裝和使用非常簡潔：通過pip install agent-memory-guard安裝核心庫後，只需幾行Python代碼即可創建MemoryGuard實例並設置策略。例如，使用Policy.strict()可自動攔截惡意寫入，並支持快照和回滾。項目還提供了針對LangChain的即插即用中間件GuardedChatMessageHistory，以及用於OpenAI Agents SDK、AutoGen、mem0等框架的集成指南。

在架構上，每次寫操作都經過檢測器管道，然後由策略引擎決定動作。此外，項目還引入了內存生命週期治理機制：通過源類來源追蹤（external_tool、user_input、agent_authored、system）和自強化冷卻檢測（SelfReinforcementDetector）來防止代理自我投毒。還提供retire_if功能，支持基於謂詞的條目退役並保留回滾指針。OpenTelemetry導出功能則實現了可觀測性。

項目路線圖顯示，2026年Q2將推出LlamaIndex/CrewAI適配器和Redis/PostgreSQL後端，Q3增加基於機器學習的異常檢測和實時儀表板，Q4達到1.0.0版本並支持多代理安全。作為OWASP孵化項目，它已在GitHub上獲得超過3,900次下載，社區關注度持續上升。