SilIF:基于轮廓增强的孤立森林用于无监督交易欺诈检测
SilIF通过对孤立森林的路径长度向量进行聚类并计算轮廓分数,提升无监督异常检测性能。在IEEE-CIS欺诈检测基准上,AUC-PR平均提升0.0080,但在Sparkov合成数据集上未见改进。
文章情报
要点
- SilIF在孤立森林基础上添加基于轮廓的评分层,利用树结构路径指纹聚类。
- 在真实数据集上平均提升AUC-PR 0.0080,统计显著。
- 在合成数据集上无改进,揭示了算法适用条件。
- 方法可调参、易部署,代码已公开。
为什么重要
这条新闻值得关注,因为SilIF在孤立森林基础上添加基于轮廓的评分层,利用树结构路径指纹聚类。
技术影响
可能影响研究路线、评测方法、开源复现和后续产品化方向。
无监督异常检测在交易欺诈检测中应用广泛,尤其在标签稀缺的场景下。孤立森林(Isolation Forest, IF)因其可扩展性和易于部署而成为最流行的经典方法之一。然而,传统孤立森林忽略了样本之间的聚类结构,这限制了其在某些复杂欺诈模式下的表现。近期,研究者提出了SilIF(Silhouette-Augmented Isolation Forest),通过在孤立森林的基础上引入基于轮廓系数(silhouette score)的评分层,有效提升了欺诈检测性能。
SilIF的核心创新在于利用森林中每棵树的路径长度构建样本的“指纹”向量。具体而言,对每个数据点,提取其在每棵树中的路径长度,形成高维向量。随后,对这些向量进行聚类,将其划分为若干结构组。接着,计算每个点的轮廓系数,该系数衡量样本与其自身组的契合度以及与其他组的分离度。轮廓信号通过单一超参数α与原始IF分数结合,得到最终的异常得分。α控制轮廓信号的权重,使得方法可灵活调整。
在IEEE-CIS欺诈检测基准数据集上(约59万笔交易,欺诈率3.5%),SilIF表现出显著优势。当α=1.0时,在五个随机种子上的平均AUC-PR比原始IF提高了0.0080,且在所有五个种子中均优于IF(配对t检验p=0.046)。这一结果表明,SilIF在真实世界的数据上能够稳定提升检测性能。然而,在Sparkov合成信用卡数据集中,轮廓增强并未带来改进。研究者对两种数据集的差异进行了深入分析,指出当数据中异常点形成清晰结构时,SilIF效果更佳;而当异常分布较为随机时,轮廓信号可能无效。
SilIF作为一种可调、易部署的增强方案,为孤立森林提供了一种简单有效的改进途径。其代码已开源在GitHub上,便于研究者复现和进一步优化。该研究诚实地报告了方法的优势与局限,为实际部署提供了重要参考,有助于推动无监督欺诈检测技术的发展。