ContextWall – AI代理和RAG管道的上下文防火牆
ContextWall是一個開源上下文防火牆,可在內容進入AI模型的上下文窗口前攔截並掃描,防止提示注入、憑證泄露和PII泄露。它無需更改代理代碼,運行在用户的基礎設施內,並提供三層檢測機制和源信任分級。
ContextWall 是一款專為 AI 代理和 RAG 管道設計的上下文防火牆,旨在解決 LLM 無法區分可信與不可信內容的根本問題。該工具以 Apache 2.0 開源許可發佈,並提供免費早期訪問。
在典型的 AI 架構中,代理從網頁、文檔或 API 檢索的內容會直接進入模型的上下文窗口,未經任何審查。攻擊者利用這一漏洞,通過精心構造的電子郵件或文檔實施提示注入、RAG 投毒、憑證泄露和 PII 竊取。例如,CVE-2025-32711(EchoLeak)中,攻擊者向 Microsoft 365 Copilot 發送一封惡意郵件,Copilot 將其中的嵌入指令解釋為命令,無需用户點擊即可訪問內部 SharePoint 文件併發送給攻擊者。另外,USENIX Security 2025 上展示的 PoisonedRAG 攻擊,只需在數百萬文檔的知識庫中植入五個對抗性文檔,即可在 90% 以上的查詢中操縱模型輸出。
ContextWall 通過在內容進入上下文窗口前攔截並掃描,為 AI 應用提供信任邊界。其工作原理如下:當代理請求文檔時,守護進程在 LLM 看到內容前接收文檔,依次運行三個檢測層:L1 結構掃描(檢查雙向控制字符、零寬字符等)、L2 模式匹配(正則表達式檢測注入語法、API 密鑰、PII)、L3 啓發式評分(評估語義意圖,捕捉同義改寫)。根據源信任層級(內部、外部、不可信、受監管)和策略規則,決定阻止或放行。
該工具專為將 AI 投入生產的團隊設計,包括 AI 和代理工程師、安全團隊以及合規和法律團隊。它無需修改代理代碼,通過 pip 安裝或 Docker 鏡像即可部署,支持本地策略配置 YAML 文件,幷包含 HIPAA、SOC 2 和 FedRAMP 的合規模板。數據流方面,所有篩查都在用户基礎設施內本地進行,控制平面僅接收請求計數、違規類型和延遲等元數據,從不接觸提示內容或用户數據。
ContextWall 明確其能力範圍:可檢測並阻止直接指令覆蓋、雙向/零寬字符混淆、間隔字母注入、語義同義改寫注入、憑證泄露和 PII 竊取;但不包括模型幻覺、系統提示錯誤、訓練時投毒或未知零日模式。它的設計強調防禦縱深,與模型提供商的安全過濾器協同工作。此外,ContextWall 支持離線部署,可在完全氣隙環境中運行,無需外部依賴。