當樣本選擇偏差加劇模型崩潰
在低資源資料孤島中,使用本地參考分佈進行資料選擇反而會加速模型崩潰,導致多樣性呈冪律衰減。透過構建不共享原始資料的Wasserstein代理參考,可以緩解多樣性退化。
近年來,隨著合成資料在遞迴訓練中的廣泛應用,資料稀缺問題得到緩解,但模型崩潰的風險也隨之增加——重複訓練會侵蝕分佈的尾部,導致輸出同質化。資料選擇通常被視為一種補救措施,但其可靠性高度依賴於驗證者所使用的參考分佈。
一項來自2026年國際機器學習大會(ICML 2026)的研究表明,在低資源驗證場景下,每個驗證者僅能觀察到目標流形的一個小型、碎片化且存在偏差的切片,此時資料選擇本身也會產生偏差。這種情況在醫療聯盟或專有金融機構等低資源資料孤島中自然出現,原始資料無法匯聚,本地參考天然不完整。結果,選擇過程會優先保留與本地流形對齊的樣本,同時剪除全域性相關的尾部模式,從而將資料選擇從防止模型崩潰的保障轉變為加速崩潰的機制。
研究團隊從理論上證明,這種孤島選擇會加速模型崩潰,並導致多樣性呈冪律衰減。作為初步緩解方案,他們構建了Wasserstein代理參考,從多個孤島中聚合資訊,而無需共享原始資料。實驗結果表明,基於本地參考的選擇在偏態分佈上失敗,而協作式代理參考能夠緩解多樣性退化。這提示我們,在真實資料覆蓋碎片化或稀缺的情況下,遞迴合成資料管道需要格外謹慎。
該論文由Xinbao Qiao等七位作者完成,已被ICML 2026接收。研究不僅揭示了資料選擇在低資源環境下的潛在風險,還提供了一種無需共享原始資料的協作式緩解方法,對於醫療聯盟、金融機構等資料敏感領域的模型訓練具有重要指導意義。