2026-06-18站内改写2 分鐘閱讀更新: 2026-06-18

MosaicLeaks：你的研究代理能保守秘密嗎？

深度研究代理結合私有文件與網頁搜尋時，可能透過查詢日誌無意中洩露敏感資訊。MosaicLeaks基準量化了這種隱私風險，並提出了一種名為隱私感知深度研究（PA-DR）的訓練方法，可以在保持任務效能的同時，將資訊洩露減少3倍以上。

來源Hugging Face Blog

文章情報

工程師進階

要點

MosaicLeaks引入了一個多跳研究鏈基準，這些鏈交織了私有本地文件和公共網頁查詢，測量了三種洩露程度：意圖、答案和完整資訊。
僅針對任務效能進行訓練會同時提高成功率和洩露率；使用PA-DR訓練可將答案/完整資訊洩露從34.0%降至9.9%，同時保持嚴格鏈條成功率為58.7%。
簡單的提示來避免洩露是無效的；PA-DR使用學習到的隱私獎勵和情境任務獎勵來訓練代理構造更安全的網頁查詢。

為什麼重要

這條新聞值得關注，因為MosaicLeaks引入了一個多跳研究鏈基準，這些鏈交織了私有本地文件和公共網頁查詢，測量了三種洩露程度：意圖、答案和完整資訊。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

深度研究代理在執行任務時，往往會結合內部私有文件和外部網路檢索。這種混合模式雖然提升了資訊獲取能力，但也引入了一個嚴峻的隱私風險：代理的網路查詢可能在不經意間洩露敏感資訊，這種現象被稱為馬賽克效應。例如，一個醫療研究代理在處理一個常規問題時，可能會觸發一系列看似無害的網路搜尋，但將這些搜尋片段組合起來，外部觀察者就能推斷出企業的內部機密。MosaicLeaks正是針對這一問題提出的基準和解決方案。

MosaicLeaks基準包含1,001個多跳研究鏈，每個鏈將本地文件查詢和網路子問題交織在一起，使得代理必須先從私有文件中檢索資訊，才能構造出下一個有用的網路查詢。基準設計了三種洩漏度量：意圖洩漏（觀察者能推斷出代理的研究目標）、答案洩漏（查詢日誌足以回答關於私有資訊的特定問題）和完整資訊洩漏（觀察者能自主發現並陳述私有事實）。實驗表明，僅針對任務效能進行強化學習（RL）會使嚴格鏈成功率從48.7%提升至59.3%，但答案/完整資訊洩漏也從34.0%飆升至51.7%。這表明，更有效的查詢往往攜帶更多私有上下文，從而加劇了洩漏。

為了緩解這一矛盾，研究人員提出了隱私感知深度研究（PA-DR）訓練方法。PA-DR結合了兩種獎勵：情境任務獎勵（根據每個決策步驟的正確性給予精細反饋）和學習到的隱私獎勵（使用Qwen3-4B分類器評估當前查詢的洩漏風險）。透過這種雙重獎勵機制，PA-DR在幾乎不損失效能的前提下，將答案/完整資訊洩漏從34.0%降至9.9%，嚴格鏈成功率保持在58.7%。值得注意的是，PA-DR並未減少查詢數量，而是讓代理學會在查詢中省略具體的指標和線索，從而降低了洩漏風險。

MosaicLeaks的研究表明，隱私保護不能僅靠提示來實現，而必須透過專門的訓練來內化。情境獎勵的引入還帶來了樣本效率的提升：達到相同效能所需的生成樣本數減少了5-6倍。雖然該基準目前基於合成資料和固定網路語料庫，但它為未來部署系統中的隱私洩漏研究提供了可量化的評估框架和有效的訓練正規化。此外，研究還發現，簡單的提示如“不要洩露資訊”效果有限，甚至會損害任務效能。而PA-DR透過精準的信用分配，不僅降低了洩漏，還保持了高效訓練。基線模型在未訓練時洩漏率為34.0%，任務獎勵訓練後洩漏升至51.7%，而PA-DR將其降至9.9%，甚至低於初始水平。代理並未減少搜尋次數，而是最佳化了查詢措辭，去除具體數字和線索，從而在找到正確公共文件的同時避免攜帶私有資訊。

總之，MosaicLeaks揭示了深度研究代理隱私洩漏的嚴重性，並提供了有效的解決方案。未來工作需擴充套件到更開放的任務和實際部署場景。