AI News HubLIVE
站内改写1 分钟阅读

用于全合成生存训练的过滤式生成器混合方法

FoGS是一种针对生存分析的新型合成数据生成方法,通过从多个生成器池中筛选样本而非直接生成,有效解决了小样本临床数据稀缺和隐私限制问题。在16个公共数据集上,该方法比传统单一生成器显著提升了模型性能,同时保持了隐私保护水平。

来源arXiv Machine Learning作者: Niccol\`o Maria Rizzi, Eugenio Lomurno, Alberto Archetti, Matteo Matteucci

生存分析是建模事件发生时间数据的关键技术,但在临床应用中,训练数据往往既昂贵又稀缺:事件需要多年的随访才能累积,队列规模小,而且隐私法规限制跨机构数据共享。表格生成模型曾被视为数据增强和隐私保护共享的解决方案,然而它们本身就需要大量数据——在生存分析典型的小样本场景下,单一生成器很难充分刻画人群特征,导致下游模型在其输出上训练时无法达到真实数据的性能。

针对这一挑战,研究人员提出了FoGS(Filtered Mixture-of-Generators for Survival analysis),该方法将合成数据构建重新定义为样本选择而非生成。具体而言,FoGS从四种架构不同的表格生成器中抽取候选样本池,然后利用在真实数据上训练的七个生存模型集成对每个样本进行评分,以适当的评分规则作为样本真实性的代理指标。接着,一个双层流水线在外层优化选择策略——包括生成器配额、评分器权重、随机补集以及基于事件时间和删失的分层平衡——以最大化下游模型的保留测试性能,内层则调优下游模型(XGBoost-Cox)。

在16个公共数据集上,采用“合成数据训练、真实数据测试”的评估范式(C-index和IBS,0-100标度),FoGS在C-index上平均提升2.17,在IBS上平均提升0.67,其中9个数据集两项指标同时改善,13个数据集至少一项指标改善(单侧Wilcoxon检验p值分别为0.039和0.035)。与未过滤的原始生成样本相比,FoGS在大多数队列中达到或超过了真实数据训练的性能,且最近邻隐私边界无显著变化。

这项研究表明,对异质生成器池进行样本过滤,是隐私受限临床场景下真实数据训练的一个可行替代方案。FoGS不仅提升了合成数据的质量,还保留了隐私保护的优势,有望推动生存分析在敏感医疗数据领域的广泛应用。该论文已提交至arXiv(编号2607.00127),并提供了完整的代码和数据链接供复现。