2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

TaxDistill：通过蒸馏基因组基础模型改进宏基因组分类注释

宏基因组分类注释旨在识别环境样本中DNA片段的微生物起源。传统方法依赖序列相似性，受限于微生物多样性和参考数据库的不完整性。TaxDistill提出一种知识蒸馏框架，利用500M参数的基因组基础模型GenomeOcean作为教师网络提取深层语义特征并生成基于置信度的软标签，将软标签信息蒸馏到轻量级学生网络中，有效减少初始检索工具引入的标签噪声。在七个CAMI2数据集上的实验表明，TaxDistill在多数场景下优于现有基线，例如在胃肠道数据集上将MMseqs2的F1分数从0.763提升至0.941。

来源arXiv Machine Learning作者: Rongye Ye, Lun Li, Zheng Luo, Yiran Zhan, Shuhui Song

宏基因组学通过直接测序环境样本中的DNA来研究微生物群落，而宏基因组分类注释的任务是确定这些DNA片段的微生物来源。传统方法如BLAST和MMseqs2依赖于序列相似性比对，但面对高度多样化的微生物群落和不完整的参考数据库时往往力不从心。近年来，机器学习方法如Taxometer通过事后校正来学习更有效的序列表示，但这些方法通常依赖相似性搜索工具生成的标签进行训练，不可避免地引入了噪声，损害了表示学习和分类性能。

为了克服这一挑战，研究人员提出了TaxDistill，一种基于知识蒸馏的宏基因组分类框架。该框架的核心是引入了一个名为GenomeOcean的基因组基础模型，该模型拥有5亿参数，能够从基因组序列中提取深层语义特征。GenomeOcean作为教师网络，为每个DNA片段生成基于置信度的软标签，这些软标签比硬标签（即直接来自检索工具的标签）包含更丰富的概率信息和更少的噪声。随后，一个轻量级的学生网络通过蒸馏学习教师网络的软标签，从而有效抑制了初始检索工具引入的标签噪声。

TaxDistill的优越性在七个来自CAMI2（Critical Assessment of Metagenome Interpretation）的多样化数据集上得到了验证。实验结果显示，TaxDistill在大多数场景下均优于MMseqs2、Taxometer等现有基线。例如，在胃肠道数据集上，TaxDistill将MMseqs2的F1分数从0.763提升到了0.941，显著超过了Taxometer的性能。此外，TaxDistill在保持高准确性的同时，计算效率也优于许多深度学习方法。

这项工作为复杂宏基因组分析中的标签校正提供了一种可靠的方法。知识蒸馏框架不仅减少了噪声标签的影响，还使得轻量级模型能够接近大型教师模型的性能，从而在实际应用中更具可行性。未来，TaxDistill有望与更多基因组基础模型结合，进一步提升宏基因组分类注释的精度和鲁棒性。