2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:04 UTC+8

用于回归的反事实残差数据增强技术

针对回归任务中数据稀缺和噪声问题，提出了一种模型无关的反事实残差数据增强方法（CRDA），通过利用残差不变性生成新样本，在多个基准数据集上使MLP回归器的均方误差平均降低22.9%，XGBoost回归器降低6.4%，优于现有方法。

来源arXiv Machine Learning作者: Hossein Mohebbi, Oliver Schulte, Ke Li, Pascal Poupart

在现实世界的回归任务中，数据驱动建模常常面临训练样本有限、收集成本高昂以及观测噪声大等严峻挑战。受计算机视觉和自然语言处理领域数据增强技术成功应用的启发，来自Hossein Mohebbi等人的研究团队提出了一种名为反事实残差数据增强（Counterfactual Residual Data Augmentation, CRDA）的新技术，专门用于表格数据回归问题。该技术的核心洞察在于：当回归器成功建模了数据中的系统成分后，剩余的噪声可以被视为一种不变的残差，在精心选择的特征受到微小扰动时保持稳定。利用这一残差不变性，CRDA能够生成全新且真实的训练样本，从而有效扩充数据集，无需额外收集真实数据。CRDA是一种模型无关的方法，可以轻松应用于各种类型的回归器，包括多层感知机（MLP）和XGBoost等。在多个基准数据集上的实验表明，平均而言，CRDA使MLP回归器的均方误差（MSE）降低了22.9%，使XGBoost回归器的MSE降低了6.4%。相比现有最先进的数据生成和增强技术，CRDA在MSE降低方面始终表现更优。该方法通过向训练数据中加入合理的反事实变体，为噪声多、样本少的回归场景提供了一种简单而高效的解决方案。该论文已被第43届国际机器学习大会（ICML 2026）接收，全文共25页，包含8张图表，并提供了项目页面供进一步参考。CRDA的应用前景广阔，尤其适用于金融预测、医疗诊断、工业控制等数据稀缺且噪声显著的领域，有望显著提升回归模型的性能与泛化能力。