2026-06-15站内改写1 分钟阅读更新: 2026-06-15

当样本选择偏差加剧模型崩溃

在低资源数据孤岛中，使用本地参考分布进行数据选择反而会加速模型崩溃，导致多样性呈幂律衰减。通过构建不共享原始数据的Wasserstein代理参考，可以缓解多样性退化。

来源arXiv AI作者: Xinbao Qiao, Xianglong Du, Wei Liu, Jingqi Zhang, Peihua Mai, Meng Zhang, Yan Pang

近年来，随着合成数据在递归训练中的广泛应用，数据稀缺问题得到缓解，但模型崩溃的风险也随之增加——重复训练会侵蚀分布的尾部，导致输出同质化。数据选择通常被视为一种补救措施，但其可靠性高度依赖于验证者所使用的参考分布。

一项来自2026年国际机器学习大会（ICML 2026）的研究表明，在低资源验证场景下，每个验证者仅能观察到目标流形的一个小型、碎片化且存在偏差的切片，此时数据选择本身也会产生偏差。这种情况在医疗联盟或专有金融机构等低资源数据孤岛中自然出现，原始数据无法汇聚，本地参考天然不完整。结果，选择过程会优先保留与本地流形对齐的样本，同时剪除全局相关的尾部模式，从而将数据选择从防止模型崩溃的保障转变为加速崩溃的机制。

研究团队从理论上证明，这种孤岛选择会加速模型崩溃，并导致多样性呈幂律衰减。作为初步缓解方案，他们构建了Wasserstein代理参考，从多个孤岛中聚合信息，而无需共享原始数据。实验结果表明，基于本地参考的选择在偏态分布上失败，而协作式代理参考能够缓解多样性退化。这提示我们，在真实数据覆盖碎片化或稀缺的情况下，递归合成数据管道需要格外谨慎。

该论文由Xinbao Qiao等七位作者完成，已被ICML 2026接收。研究不仅揭示了数据选择在低资源环境下的潜在风险，还提供了一种无需共享原始数据的协作式缓解方法，对于医疗联盟、金融机构等数据敏感领域的模型训练具有重要指导意义。