ContextWall – AIエージェントとRAGパイプラインのためのコンテキストファイアウォール
ContextWallは、AIモデルのコンテキストウィンドウに入る前にドキュメントをインターセプトしてスキャンし、プロンプトインジェクションや認証情報漏洩、PII漏洩を防止するオープンソースのコンテキストファイアウォールです。エージェントのコード変更は不要で、ユーザーのインフラ内で動作し、3層の検出機能とソース信頼度階層を提供します。
ContextWallは、AIエージェントとRAGパイプライン向けのコンテキストファイアウォールであり、LLMが信頼できるコンテンツとそうでないコンテンツを区別できないという根本的な問題に対処します。Apache 2.0オープンソースライセンスで提供され、無料の早期アクセスが可能です。
典型的なAIアーキテクチャでは、エージェントがウェブやドキュメント、APIから取得したコンテンツがそのままモデルのコンテキストウィンドウに入り、チェックされません。攻撃者はこの脆弱性を悪用し、巧妙に細工されたメールやドキュメントを介してプロンプトインジェクション、RAGポイズニング、認証情報漏洩、PII漏洩を引き起こします。たとえば、CVE-2025-32711(EchoLeak)では、攻撃者がMicrosoft 365 Copilotに悪意のあるメールを送信し、Copilotが埋め込まれた指示をコマンドとして解釈し、ユーザーの操作なしに内部SharePointファイルにアクセスして攻撃者に送信しました。また、USENIX Security 2025で実証されたPoisonedRAG攻撃では、数百万のドキュメントを持つ知識ベースに5つの敵対的ドキュメントを植え付けるだけで、90%以上のクエリでモデルの出力を操作できました。
ContextWallは、コンテンツがコンテキストウィンドウに入る前にインターセプトしてスキャンすることで、AIアプリケーションに信頼の境界を提供します。動作の流れは次のとおりです。エージェントがドキュメントを要求すると、デーモンがLLMがコンテンツを見る前にドキュメントを受信し、3つの検出レイヤーを順に実行します。L1構造スキャン(双方向制御文字やゼロ幅文字などをチェック)、L2パターンマッチング(正規表現でインジェクション構文やAPIキー、PIIを検出)、L3ヒューリスティックスコアリング(セマンティックな意図を評価し、言い換えインジェクションを捕捉)。ソースの信頼度階層(内部、外部、非信頼、規制対象)とポリシールールに基づいて、ブロックまたは許可を決定します。
このツールは、AIを本番環境に投入するチーム(AI/エンジニア、セキュリティチーム、コンプライアンス/法務チーム)向けに設計されています。エージェントのコード変更は不要で、pipインストールまたはDockerイメージでデプロイ可能です。ローカルのYAMLポリシー設定をサポートし、HIPAA、SOC 2、FedRAMPのコンプライアンステンプレートが含まれています。データフローに関しては、すべてのスクリーニングがユーザーのインフラ内でローカルに実行され、コントロールプレーンはリクエスト数、違反タイプ、レイテンシなどのメタデータのみを受信し、プロンプトコンテンツやユーザーデータには決してアクセスしません。
ContextWallはその能力範囲を明確にしています。直接的な命令上書き、双方向/ゼロ幅文字の難読化、スペース文字インジェクション、セマンティックな言い換えインジェクション、認証情報漏洩、PII漏洩を検出・ブロックできます。ただし、モデルの幻覚、システムプロンプトの誤り、トレーニング時のポイズニング、未知のゼロデイパターンは対象外です。この設計は多層防御の考え方に基づき、モデルプロバイダーのセーフティフィルターと連携して機能します。さらに、ContextWallはオフライン環境でも動作可能で、完全にエアギャップされた状態で外部依存なしに実行できます。