AI News HubLIVE
站内改写

🔬ESMFold2:蛋白质领域的苦涩教训——Alex Rives,BioHub

Alex Rives 在 BioHub 上发布了 ESMFold2,这是一个基于大规模无监督训练蛋白质语言模型的开源科学引擎,在蛋白质相互作用(尤其是抗体)预测上取得了最先进性能,并发布了68亿蛋白质图谱和11亿预测结构。文章讨论了世界模型在蛋白质生物学中的应用,以及如何通过稀疏自编码器提取语义特征实现可编程生物学。

文章情报

工程师进阶

要点

  • ESMFold2 基于 ESMC 世界模型,在抗体等缺乏多序列比对(MSA)的蛋白质上超越 AlphaFold3。
  • BioHub 发布包含 68 亿蛋白质序列和 11 亿预测结构的开放图谱。
  • 世界模型通过无监督学习抽象蛋白质模式,支持组合泛化,可用于设计新型蛋白质。
  • 稀疏自编码器从模型提取语义特征,揭示膜整合、二硫键等生物学概念。

为什么重要

这条新闻值得关注,因为ESMFold2 基于 ESMC 世界模型,在抗体等缺乏多序列比对(MSA)的蛋白质上超越 AlphaFold3。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

BioHub 的首席科学家 Alex Rives 近日宣布推出 ESMFold2,这是一个开源的蛋白质科学引擎,旨在推动蛋白质预测、设计和发现的前沿。ESMFold2 建立在早期 ESM 系列模型的基础上,这些模型通过简单的“下一个 token”目标对来自生命界的数百万蛋白质序列进行无监督训练。令人惊讶的是,这些模型不仅学会了序列模式,还内化了蛋白质的结构和功能属性,并且这种能力随计算量可预测地扩展,最终催生了 ESM2、ESM3 直至今天的 ESMC 世界模型和 ESMFold2 结构预测头。

ESMFold2 在蛋白质相互作用预测上取得了最先进的性能,尤其是在抗体这一治疗关键领域。传统上,AlphaFold2 等模型依赖于多序列比对(MSA)来捕捉共进化信息,但抗体因突变迅速而缺乏可靠的 MSA,导致 AlphaFold 表现不佳。ESMFold2 跳过了 MSA 依赖,直接通过大规模无监督学习从序列多样性中学习蛋白质关系,然后关联到已知结构。这种方法本质上构建了一个蛋白质的“世界模型”——通过无监督训练学习语义抽象,支持组合和泛化,从而能预测未见过的蛋白质属性。

为了展示其能力,BioHub 同时发布了包含 68 亿蛋白质序列和 11 亿预测结构的开放图谱,用户可以在其网站上自由探索。Rives 在播客中详细讨论了如何利用这一世界模型进行蛋白质设计:先生成序列,再用模型预测其结合亲和力等特性,然后在湿实验室中验证最难的分子。此外,团队还使用稀疏自编码器(SAE)从模型内部提取语义特征,这些特征对应于从局部氨基酸性质到整体结构域(如免疫球蛋白折叠)的层次化概念,甚至包括无序区域和二硫键等非结构特征。这为理解蛋白质功能提供了一种全新的“可编程生物学”视角,其中细胞核被视为存储设备,核糖体类似即时编译器,而 SAE 特征则充当函数,蛋白质如同进程,共同在信号通路中产生表型输出。

Rives 还分享了 BioHub 的愿景:通过新的数据收集原则和细胞级建模,最终实现生物学的可编程化。这一发布标志着蛋白质科学向开放、可扩展且数据驱动的未来迈出了重要一步。