少样本重采样实现可扩展的统计可靠数据挖掘
基于重采样的统计显著性评估在数据挖掘中至关重要,但传统方法需要生成数千个重采样数据集,计算成本高。本文提出FewRS方法,通过推导检验统计量的上确界偏差新界限,仅需极少量重采样数据集即可保证低误报率,在模式挖掘和网络分析任务中将运行时间降低两个数量级,同时保持高统计功效。
在数据挖掘中,评估结果的统计显著性至关重要,以避免因噪声或随机波动导致的虚假发现。目前广泛使用的重采样方法需要生成数千个重采样数据集,这对于大规模数据或计算密集型分析而言往往不切实际。针对这一问题,来自帕多瓦大学的Leonardo Pellegrina和Fabio Vandin在KDD 2026上提出了一种名为FewRS的新方法。FewRS基于对检验统计量上确界偏差的理论推导,仅需极少数量的重采样数据集即可提供严格的误报概率控制。实验表明,在模式挖掘和网络分析等常见任务中,FewRS的运行时间相比现有最佳方法减少最多两个数量级,同时保持高统计功效。该方法的简单性和有效性使其可广泛应用于任何需要重采样显著性检验的场景,为大规模数据挖掘结果的统计验证提供了可扩展的解决方案。FewRS的核心创新在于推导出了检验统计量上确界偏差的一个新边界,从而大幅减少了所需重采样数据集的数目。研究者证明,与传统方法需要数千个重采样数据集不同,FewRS仅需极少数量的数据集即可获得同样严格的误报率保证。这一突破使得在大规模数据集上进行统计显著性检验成为可能,而无需牺牲计算效率。在实验部分,FewRS在模式挖掘和网络分析任务中均表现出色,运行时间相比现有最佳方法减少了最多两个数量级,同时保持了较高的统计功效。这一结果表明,FewRS不仅解决了传统重采样方法在大数据环境下的可扩展性问题,还为数据挖掘结果的统计验证提供了一种高效且实用的工具。