MosaicLeaks:你的研究代理能保守秘密嗎?
深度研究代理結合私有文檔與網頁搜索時,可能通過查詢日誌無意中泄露敏感信息。MosaicLeaks基準量化了這種隱私風險,並提出了一種名為隱私感知深度研究(PA-DR)的訓練方法,可以在保持任務性能的同時,將信息泄露減少3倍以上。
深度研究代理在執行任務時,往往會結合內部私有文檔和外部網絡檢索。這種混合模式雖然提升了信息獲取能力,但也引入了一個嚴峻的隱私風險:代理的網絡查詢可能在不經意間泄露敏感信息,這種現象被稱為馬賽克效應。例如,一個醫療研究代理在處理一個常規問題時,可能會觸發一系列看似無害的網絡搜索,但將這些搜索片段組合起來,外部觀察者就能推斷出企業的內部機密。MosaicLeaks正是針對這一問題提出的基準和解決方案。
MosaicLeaks基準包含1,001個多跳研究鏈,每個鏈將本地文檔查詢和網絡子問題交織在一起,使得代理必須先從私有文檔中檢索信息,才能構造出下一個有用的網絡查詢。基準設計了三種泄漏度量:意圖泄漏(觀察者能推斷出代理的研究目標)、答案泄漏(查詢日誌足以回答關於私有信息的特定問題)和完整信息泄漏(觀察者能自主發現並陳述私有事實)。實驗表明,僅針對任務性能進行強化學習(RL)會使嚴格鏈成功率從48.7%提升至59.3%,但答案/完整信息泄漏也從34.0%飆升至51.7%。這表明,更有效的查詢往往攜帶更多私有上下文,從而加劇了泄漏。
為了緩解這一矛盾,研究人員提出了隱私感知深度研究(PA-DR)訓練方法。PA-DR結合了兩種獎勵:情境任務獎勵(根據每個決策步驟的正確性給予精細反饋)和學習到的隱私獎勵(使用Qwen3-4B分類器評估當前查詢的泄漏風險)。通過這種雙重獎勵機制,PA-DR在幾乎不損失性能的前提下,將答案/完整信息泄漏從34.0%降至9.9%,嚴格鏈成功率保持在58.7%。值得注意的是,PA-DR並未減少查詢數量,而是讓代理學會在查詢中省略具體的指標和線索,從而降低了泄漏風險。
MosaicLeaks的研究表明,隱私保護不能僅靠提示來實現,而必須通過專門的訓練來內化。情境獎勵的引入還帶來了樣本效率的提升:達到相同性能所需的生成樣本數減少了5-6倍。雖然該基準目前基於合成數據和固定網絡語料庫,但它為未來部署系統中的隱私泄漏研究提供了可量化的評估框架和有效的訓練範式。此外,研究還發現,簡單的提示如“不要泄露信息”效果有限,甚至會損害任務性能。而PA-DR通過精準的信用分配,不僅降低了泄漏,還保持了高效訓練。基線模型在未訓練時泄漏率為34.0%,任務獎勵訓練後泄漏升至51.7%,而PA-DR將其降至9.9%,甚至低於初始水平。代理並未減少搜索次數,而是優化了查詢措辭,去除具體數字和線索,從而在找到正確公共文檔的同時避免攜帶私有信息。
總之,MosaicLeaks揭示了深度研究代理隱私泄漏的嚴重性,並提供了有效的解決方案。未來工作需擴展到更開放的任務和實際部署場景。