AI News HubLIVE
站内改写1 分钟阅读

用于回归的反事实残差数据增强技术

针对回归任务中数据稀缺和噪声问题,提出了一种模型无关的反事实残差数据增强方法(CRDA),通过利用残差不变性生成新样本,在多个基准数据集上使MLP回归器的均方误差平均降低22.9%,XGBoost回归器降低6.4%,优于现有方法。

来源arXiv Machine Learning作者: Hossein Mohebbi, Oliver Schulte, Ke Li, Pascal Poupart

在现实世界的回归任务中,数据驱动建模常常面临训练样本有限、收集成本高昂以及观测噪声大等严峻挑战。受计算机视觉和自然语言处理领域数据增强技术成功应用的启发,来自Hossein Mohebbi等人的研究团队提出了一种名为反事实残差数据增强(Counterfactual Residual Data Augmentation, CRDA)的新技术,专门用于表格数据回归问题。该技术的核心洞察在于:当回归器成功建模了数据中的系统成分后,剩余的噪声可以被视为一种不变的残差,在精心选择的特征受到微小扰动时保持稳定。利用这一残差不变性,CRDA能够生成全新且真实的训练样本,从而有效扩充数据集,无需额外收集真实数据。CRDA是一种模型无关的方法,可以轻松应用于各种类型的回归器,包括多层感知机(MLP)和XGBoost等。在多个基准数据集上的实验表明,平均而言,CRDA使MLP回归器的均方误差(MSE)降低了22.9%,使XGBoost回归器的MSE降低了6.4%。相比现有最先进的数据生成和增强技术,CRDA在MSE降低方面始终表现更优。该方法通过向训练数据中加入合理的反事实变体,为噪声多、样本少的回归场景提供了一种简单而高效的解决方案。该论文已被第43届国际机器学习大会(ICML 2026)接收,全文共25页,包含8张图表,并提供了项目页面供进一步参考。CRDA的应用前景广阔,尤其适用于金融预测、医疗诊断、工业控制等数据稀缺且噪声显著的领域,有望显著提升回归模型的性能与泛化能力。