2026-07-03 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-03 16:06 UTC+8

基于DNA甲基化的中枢神经系统肿瘤分类新机器学习方法

研究人员提出了一种结合稀疏随机投影和多项逻辑回归的机器学习方法，用于DNA甲基化数据的中枢神经系统肿瘤分类。在参考队列中达到96%准确率，在独立临床队列中达到86%（91类）和93%（家族级），较现有技术提升4-5个百分点，具有临床意义。

来源arXiv Machine Learning作者: Paulo R. Ferreira Jr., Lucas Coutinho Freitas, La\'is dos Santos Gon\c{c}alves, William Borges Domingues, Lucas Petitemberte de Souza, Mariana B. Michalowski, Vinicius F. Campos

近日，一篇发表在arXiv上的论文提出了一种创新的机器学习方法，用于基于DNA甲基化谱的中枢神经系统（CNS）肿瘤分类。该方法由Paulo R. Ferreira Jr.等七位研究人员开发，旨在解决现有分类方法在跨队列迁移性、方法论正确性和稳健多类评估方面的挑战。DNA甲基化分析已成为CNS肿瘤分类的有力工具，但现有方法在跨队列泛化能力、方法学严谨性以及多类鲁棒评估方面仍存在重大问题。该研究提出了一种新颖且方法学严谨的机器学习方法，结合了稀疏随机投影（Sparse Random Projection）进行降维，以及多项逻辑回归（Multinomial Logistic Regression）进行分类。研究团队在与广泛使用的参考分类器相同的实验设置下进行了综合评估。在包含2801个样本的参考队列中，该方法在分层3折交叉验证下达到了96%的平均准确率，显示其在已知数据上的卓越性能。随后，在包含1104个样本的独立临床评估队列中，该方法在91个肿瘤类别的精细分类中达到86%的准确率，而在甲基化类家族（即更宽泛的分类组）水平评估时准确率提升至93%。这些结果显著优于现有的最新技术：参考方法在类别水平上的一致性为82%，家族水平一致性为88%。新方法分别提高了约4和5个百分点，这是绝对增益，具有直接的临床意义。在诊断环境中，肿瘤分类正确率提高5个百分点可以直接影响癌症亚型分配，进而影响治疗选择和后续临床决策。例如，更准确的分类有助于指导特定化疗方案或靶向治疗的应用。研究结果还表明，该模型基于更强的机器学习方法论实践，如适当的降维和正则化，使其在各种评估设置下一致优于先前的最新方案，能够实质性提高CNS肿瘤分类的可靠性。该研究为未来临床应用提供了有前景的工具，尤其适用于基于DNA甲基化的精准诊断。该论文还讨论了方法的设计选择及其对实际部署的启示。研究者表示，该方法有望整合到临床工作流程中，辅助病理学家进行肿瘤分类。论文提交于2026年7月1日，目前可在arXiv上获取。该工作得到了机器学习与基因组学交叉领域的关注，并为肿瘤分类的自动化提供了新的可能性。总之，该方法在准确性和方法学严谨性上均取得进展，为精准医学做出了贡献。