AI News HubLIVE
站内改写1 分鐘閱讀

當樣本選擇偏差加劇模型崩潰

在低資源數據孤島中,使用本地參考分佈進行數據選擇反而會加速模型崩潰,導致多樣性呈冪律衰減。通過構建不共享原始數據的Wasserstein代理參考,可以緩解多樣性退化。

來源arXiv AI作者: Xinbao Qiao, Xianglong Du, Wei Liu, Jingqi Zhang, Peihua Mai, Meng Zhang, Yan Pang

近年來,隨着合成數據在遞歸訓練中的廣泛應用,數據稀缺問題得到緩解,但模型崩潰的風險也隨之增加——重複訓練會侵蝕分佈的尾部,導致輸出同質化。數據選擇通常被視為一種補救措施,但其可靠性高度依賴於驗證者所使用的參考分佈。

一項來自2026年國際機器學習大會(ICML 2026)的研究表明,在低資源驗證場景下,每個驗證者僅能觀察到目標流形的一個小型、碎片化且存在偏差的切片,此時數據選擇本身也會產生偏差。這種情況在醫療聯盟或專有金融機構等低資源數據孤島中自然出現,原始數據無法匯聚,本地參考天然不完整。結果,選擇過程會優先保留與本地流形對齊的樣本,同時剪除全局相關的尾部模式,從而將數據選擇從防止模型崩潰的保障轉變為加速崩潰的機制。

研究團隊從理論上證明,這種孤島選擇會加速模型崩潰,並導致多樣性呈冪律衰減。作為初步緩解方案,他們構建了Wasserstein代理參考,從多個孤島中聚合信息,而無需共享原始數據。實驗結果表明,基於本地參考的選擇在偏態分佈上失敗,而協作式代理參考能夠緩解多樣性退化。這提示我們,在真實數據覆蓋碎片化或稀缺的情況下,遞歸合成數據管道需要格外謹慎。

該論文由Xinbao Qiao等七位作者完成,已被ICML 2026接收。研究不僅揭示了數據選擇在低資源環境下的潛在風險,還提供了一種無需共享原始數據的協作式緩解方法,對於醫療聯盟、金融機構等數據敏感領域的模型訓練具有重要指導意義。