AI News HubLIVE
站内改写1 分钟阅读

VisualLeakBench:视觉语言智能体中可复现的动作边界传播失败

本文介绍VisualLeakBench基准,用于评估视觉语言模型(VLM)在截图、文档等场景中是否将敏感文本复制到工具参数中。测试显示,基线条件下PII传播率达78.8%,不安全文本传播率达85.5%;防御提示可降低PII传播至2.0%但牺牲了实用性,不安全文本仍达52.6%。

来源arXiv Computer Vision作者: Youting Wang, Yuan Tang, Yitian Qian, Chen Zhao

随着视觉语言智能体(VLM)越来越多地通过截图、文档和用户界面获取信息,并将内容写入记忆、发送消息或调用外部工具,一个具体的失败模式逐渐显现:动作边界传播(action-boundary propagation),即图像中敏感或不安全的可见文本被复制到下游工具参数中。

为系统研究这一问题,研究人员提出了VisualLeakBench,一个多样化的500图像基准,涵盖UI、聊天、文档、表单和仪表盘场景。他们从其中分层选取了100个图像,配备四个生产级VLM系统,在两种工作流(笔记捕获和外部交接)下进行评估。

基线结果显示,目标字符串在78.8%的个人身份信息(PII)案例和85.5%的渲染不安全文本案例中被传播到工具参数中。当使用防御性系统提示时,渲染不安全文本的传播率仍然高达52.6%,而PII工具传播率降至2.0%——但这主要是通过抑制工具使用而非保持实用性实现的。传播率高度依赖工具表面:类似搜索的工具能够抑制PII传播,但渲染的不安全文本仍然可以跨越工具边界。

该研究测量的是视觉到工具的传播,而非下游指令执行。此外,研究人员提供了一个带标签的目标预言上限诊断,将大部分失败定位在工具边界,同时将响应端泄漏作为残余风险。这项研究强调了在VLM系统中加强安全防护的必要性,尤其是在处理敏感信息时。

这一发现对当前基于VLM的自动化工具和智能体系统具有直接警示意义。随着企业越来越多地将VLM集成到客户服务、文档处理和工作流自动化中,确保这些系统不会无意中泄露敏感信息变得至关重要。VisualLeakBench不仅揭示了现有防御措施的不足,还提供了一个标准化的评估框架,有助于推动更有效的安全机制的发展。研究人员建议,未来的工作应专注于设计既能保持工具实用性又能有效防止敏感信息传播的防护策略,并探索在工具边界和响应端双重加固的可能性。