2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

當樣本選擇偏差加劇模型崩潰

在低資源數據孤島中，使用本地參考分佈進行數據選擇反而會加速模型崩潰，導致多樣性呈冪律衰減。通過構建不共享原始數據的Wasserstein代理參考，可以緩解多樣性退化。

來源arXiv AI作者: Xinbao Qiao, Xianglong Du, Wei Liu, Jingqi Zhang, Peihua Mai, Meng Zhang, Yan Pang

近年來，隨着合成數據在遞歸訓練中的廣泛應用，數據稀缺問題得到緩解，但模型崩潰的風險也隨之增加——重複訓練會侵蝕分佈的尾部，導致輸出同質化。數據選擇通常被視為一種補救措施，但其可靠性高度依賴於驗證者所使用的參考分佈。

一項來自2026年國際機器學習大會（ICML 2026）的研究表明，在低資源驗證場景下，每個驗證者僅能觀察到目標流形的一個小型、碎片化且存在偏差的切片，此時數據選擇本身也會產生偏差。這種情況在醫療聯盟或專有金融機構等低資源數據孤島中自然出現，原始數據無法匯聚，本地參考天然不完整。結果，選擇過程會優先保留與本地流形對齊的樣本，同時剪除全局相關的尾部模式，從而將數據選擇從防止模型崩潰的保障轉變為加速崩潰的機制。

研究團隊從理論上證明，這種孤島選擇會加速模型崩潰，並導致多樣性呈冪律衰減。作為初步緩解方案，他們構建了Wasserstein代理參考，從多個孤島中聚合信息，而無需共享原始數據。實驗結果表明，基於本地參考的選擇在偏態分佈上失敗，而協作式代理參考能夠緩解多樣性退化。這提示我們，在真實數據覆蓋碎片化或稀缺的情況下，遞歸合成數據管道需要格外謹慎。

該論文由Xinbao Qiao等七位作者完成，已被ICML 2026接收。研究不僅揭示了數據選擇在低資源環境下的潛在風險，還提供了一種無需共享原始數據的協作式緩解方法，對於醫療聯盟、金融機構等數據敏感領域的模型訓練具有重要指導意義。