AI News HubLIVE
站内改写

Show HN: OWASP Agent Memory Guard – 阻止AI代理内存投毒

OWASP Agent Memory Guard 是一个运行时防御层,在AI代理的内存读取和写入时进行筛查,防止提示注入、秘密泄漏和完整性篡改。它是OWASP ASI06内存投毒攻击的参考实现,支持LangChain、OpenAI Agents等多种框架。

随着AI代理在各行业广泛应用,其安全性成为不容忽视的问题。其中,内存投毒攻击是一种新兴威胁:攻击者通过向代理的持久化内存(如RAG索引、对话历史、向量存储)中植入恶意内容,可以覆盖代理指令、窃取用户数据或劫持未来工具调用,且攻击效果会跨会话持续。传统的提示注入防御主要集中在用户输入过滤,但内存投毒攻击的是代理的记忆本身,需要不同的防御策略。

OWASP Agent Memory Guard正是为了解决这一问题而诞生的开源项目。它作为一个运行时防御层,位于AI代理与其内存存储之间,对所有读写操作进行筛查。项目集成了完整性检查(SHA-256基线)、威胁检测(包括提示注入、秘密/PII泄漏、保护键修改、大小异常、快速变化攻击等)、策略执行(通过YAML定义规则,支持允许、编辑、隔离或阻止)以及取证(每次决策生成结构化安全事件,并支持时间点快照回滚)。

在性能方面,团队使用55个真实攻击载荷进行基准测试,检测率(召回率)达到92.5%,精度100%,假阳性率0%,中位延迟仅为59微秒。按攻击类别看,提示注入和受保护键篡改的检测率均为100%,敏感数据泄漏为83%,大小异常为80%。这些结果展示了该方案的高效性。

安装和使用非常简洁:通过pip install agent-memory-guard安装核心库后,只需几行Python代码即可创建MemoryGuard实例并设置策略。例如,使用Policy.strict()可自动拦截恶意写入,并支持快照和回滚。项目还提供了针对LangChain的即插即用中间件GuardedChatMessageHistory,以及用于OpenAI Agents SDK、AutoGen、mem0等框架的集成指南。

在架构上,每次写操作都经过检测器管道,然后由策略引擎决定动作。此外,项目还引入了内存生命周期治理机制:通过源类来源追踪(external_tool、user_input、agent_authored、system)和自强化冷却检测(SelfReinforcementDetector)来防止代理自我投毒。还提供retire_if功能,支持基于谓词的条目退役并保留回滚指针。OpenTelemetry导出功能则实现了可观测性。

项目路线图显示,2026年Q2将推出LlamaIndex/CrewAI适配器和Redis/PostgreSQL后端,Q3增加基于机器学习的异常检测和实时仪表板,Q4达到1.0.0版本并支持多代理安全。作为OWASP孵化项目,它已在GitHub上获得超过3,900次下载,社区关注度持续上升。