AI News HubLIVE
站内改写1 分钟阅读

当样本选择偏差加剧模型崩溃

在低资源数据孤岛中,使用本地参考分布进行数据选择反而会加速模型崩溃,导致多样性呈幂律衰减。通过构建不共享原始数据的Wasserstein代理参考,可以缓解多样性退化。

来源arXiv AI作者: Xinbao Qiao, Xianglong Du, Wei Liu, Jingqi Zhang, Peihua Mai, Meng Zhang, Yan Pang

近年来,随着合成数据在递归训练中的广泛应用,数据稀缺问题得到缓解,但模型崩溃的风险也随之增加——重复训练会侵蚀分布的尾部,导致输出同质化。数据选择通常被视为一种补救措施,但其可靠性高度依赖于验证者所使用的参考分布。

一项来自2026年国际机器学习大会(ICML 2026)的研究表明,在低资源验证场景下,每个验证者仅能观察到目标流形的一个小型、碎片化且存在偏差的切片,此时数据选择本身也会产生偏差。这种情况在医疗联盟或专有金融机构等低资源数据孤岛中自然出现,原始数据无法汇聚,本地参考天然不完整。结果,选择过程会优先保留与本地流形对齐的样本,同时剪除全局相关的尾部模式,从而将数据选择从防止模型崩溃的保障转变为加速崩溃的机制。

研究团队从理论上证明,这种孤岛选择会加速模型崩溃,并导致多样性呈幂律衰减。作为初步缓解方案,他们构建了Wasserstein代理参考,从多个孤岛中聚合信息,而无需共享原始数据。实验结果表明,基于本地参考的选择在偏态分布上失败,而协作式代理参考能够缓解多样性退化。这提示我们,在真实数据覆盖碎片化或稀缺的情况下,递归合成数据管道需要格外谨慎。

该论文由Xinbao Qiao等七位作者完成,已被ICML 2026接收。研究不仅揭示了数据选择在低资源环境下的潜在风险,还提供了一种无需共享原始数据的协作式缓解方法,对于医疗联盟、金融机构等数据敏感领域的模型训练具有重要指导意义。