2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

SilIF：基于轮廓增强的孤立森林用于无监督交易欺诈检测

SilIF通过对孤立森林的路径长度向量进行聚类并计算轮廓分数，提升无监督异常检测性能。在IEEE-CIS欺诈检测基准上，AUC-PR平均提升0.0080，但在Sparkov合成数据集上未见改进。

来源arXiv Machine Learning作者: Venkatakrishnan Gopalakrishnan

无监督异常检测在交易欺诈检测中应用广泛，尤其在标签稀缺的场景下。孤立森林（Isolation Forest, IF）因其可扩展性和易于部署而成为最流行的经典方法之一。然而，传统孤立森林忽略了样本之间的聚类结构，这限制了其在某些复杂欺诈模式下的表现。近期，研究者提出了SilIF（Silhouette-Augmented Isolation Forest），通过在孤立森林的基础上引入基于轮廓系数（silhouette score）的评分层，有效提升了欺诈检测性能。

SilIF的核心创新在于利用森林中每棵树的路径长度构建样本的“指纹”向量。具体而言，对每个数据点，提取其在每棵树中的路径长度，形成高维向量。随后，对这些向量进行聚类，将其划分为若干结构组。接着，计算每个点的轮廓系数，该系数衡量样本与其自身组的契合度以及与其他组的分离度。轮廓信号通过单一超参数α与原始IF分数结合，得到最终的异常得分。α控制轮廓信号的权重，使得方法可灵活调整。

在IEEE-CIS欺诈检测基准数据集上（约59万笔交易，欺诈率3.5%），SilIF表现出显著优势。当α=1.0时，在五个随机种子上的平均AUC-PR比原始IF提高了0.0080，且在所有五个种子中均优于IF（配对t检验p=0.046）。这一结果表明，SilIF在真实世界的数据上能够稳定提升检测性能。然而，在Sparkov合成信用卡数据集中，轮廓增强并未带来改进。研究者对两种数据集的差异进行了深入分析，指出当数据中异常点形成清晰结构时，SilIF效果更佳；而当异常分布较为随机时，轮廓信号可能无效。

SilIF作为一种可调、易部署的增强方案，为孤立森林提供了一种简单有效的改进途径。其代码已开源在GitHub上，便于研究者复现和进一步优化。该研究诚实地报告了方法的优势与局限，为实际部署提供了重要参考，有助于推动无监督欺诈检测技术的发展。