2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

模型崩溃的流行病学：通过双层SIR动力学建模合成数据污染

研究团队提出了一个双层SIR/SIRS框架来模拟AI生态系统中模型与数据语料库之间的合成数据交叉污染，发现合成文本检测和群体免疫是关键干预策略。

来源arXiv Computational Linguistics作者: Xiangyu Wang

近年来，人工智能模型的训练大量依赖合成数据，但这一做法可能导致模型崩溃——模型性能逐渐退化。现有研究通常将模型崩溃视为单链退化过程，然而在实际的AI生态系统中，污染是跨模型交叉发生的：模型从其他模型生成的合成数据中学习，产生新的合成文本，进而污染共享的语料库。这种交叉污染使得模型崩溃更像是一种“流行病”在模型和语料库之间传播。

为了更准确地描述这一现象，来自研究机构（论文作者为Xiangyu Wang等人，2026年4月14日提交至arXiv）的团队提出了一个双层耦合的SIR/SIRS框架。该框架是一个现象学平均场模型，将数据语料库和AI模型视为两个相互作用的种群，每个种群内部分为易感、感染和恢复三个仓室，并通过跨层传播机制相互连接。研究团队推荐使用SIRS变体，因为它引入免疫衰减机制，反映经过过滤的语料库和重新训练的模型仍然可能再次被污染。论文全文共24页，包含15张图表。

通过下一代矩阵方法，研究者推导出基本再生数R0 = √(β_D β_M / [(γ_D+μ_D)(γ_M+μ_M)])，并将其应用于双层系统的流行病阈值分析。基于公开的AI文本流行率数据进行的场景校准显示，在三种场景下R0均大于1，表明系统处于超临界动态，即污染会持续存在。Sobol敏感性分析指出，合成文本检测是影响最大的参数。

进一步，团队构建了一个二分网络代理模型，验证了平均场一致性（R²>0.96），但在异质性网络下性能下降。GPT-2污染链实验（192次运行，使用WikiText和莎士比亚数据集）显示了剂量反应式的退化和多样性损失，与阈值理论定性一致。匹配预算的源多样性实验（1088次运行）提供暗示性证据，表明多源混合可以微弱地缓解崩溃，但在较低污染比例下效果消失。干预分析表明，基于检测的过滤和群体免疫是最高效力的策略。这项研究为理解和应对AI模型崩溃提供了新的流行病学视角，其结论对于AI系统的数据管理策略具有重要指导意义。