AI News HubLIVE
站内改写2 分钟阅读

MosaicLeaks:你的研究代理能保守秘密吗?

深度研究代理结合私有文档与网页搜索时,可能通过查询日志无意中泄露敏感信息。MosaicLeaks基准量化了这种隐私风险,并提出了一种名为隐私感知深度研究(PA-DR)的训练方法,可以在保持任务性能的同时,将信息泄露减少3倍以上。

深度研究代理在执行任务时,往往会结合内部私有文档和外部网络检索。这种混合模式虽然提升了信息获取能力,但也引入了一个严峻的隐私风险:代理的网络查询可能在不经意间泄露敏感信息,这种现象被称为马赛克效应。例如,一个医疗研究代理在处理一个常规问题时,可能会触发一系列看似无害的网络搜索,但将这些搜索片段组合起来,外部观察者就能推断出企业的内部机密。MosaicLeaks正是针对这一问题提出的基准和解决方案。

MosaicLeaks基准包含1,001个多跳研究链,每个链将本地文档查询和网络子问题交织在一起,使得代理必须先从私有文档中检索信息,才能构造出下一个有用的网络查询。基准设计了三种泄漏度量:意图泄漏(观察者能推断出代理的研究目标)、答案泄漏(查询日志足以回答关于私有信息的特定问题)和完整信息泄漏(观察者能自主发现并陈述私有事实)。实验表明,仅针对任务性能进行强化学习(RL)会使严格链成功率从48.7%提升至59.3%,但答案/完整信息泄漏也从34.0%飙升至51.7%。这表明,更有效的查询往往携带更多私有上下文,从而加剧了泄漏。

为了缓解这一矛盾,研究人员提出了隐私感知深度研究(PA-DR)训练方法。PA-DR结合了两种奖励:情境任务奖励(根据每个决策步骤的正确性给予精细反馈)和学习到的隐私奖励(使用Qwen3-4B分类器评估当前查询的泄漏风险)。通过这种双重奖励机制,PA-DR在几乎不损失性能的前提下,将答案/完整信息泄漏从34.0%降至9.9%,严格链成功率保持在58.7%。值得注意的是,PA-DR并未减少查询数量,而是让代理学会在查询中省略具体的指标和线索,从而降低了泄漏风险。

MosaicLeaks的研究表明,隐私保护不能仅靠提示来实现,而必须通过专门的训练来内化。情境奖励的引入还带来了样本效率的提升:达到相同性能所需的生成样本数减少了5-6倍。虽然该基准目前基于合成数据和固定网络语料库,但它为未来部署系统中的隐私泄漏研究提供了可量化的评估框架和有效的训练范式。此外,研究还发现,简单的提示如“不要泄露信息”效果有限,甚至会损害任务性能。而PA-DR通过精准的信用分配,不仅降低了泄漏,还保持了高效训练。基线模型在未训练时泄漏率为34.0%,任务奖励训练后泄漏升至51.7%,而PA-DR将其降至9.9%,甚至低于初始水平。代理并未减少搜索次数,而是优化了查询措辞,去除具体数字和线索,从而在找到正确公共文档的同时避免携带私有信息。

总之,MosaicLeaks揭示了深度研究代理隐私泄漏的严重性,并提供了有效的解决方案。未来工作需扩展到更开放的任务和实际部署场景。