2026-05-28 01:46 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

🔬ESMFold2：蛋白质领域的苦涩教训——Alex Rives，BioHub

Alex Rives 在 BioHub 上发布了 ESMFold2，这是一个基于大规模无监督训练蛋白质语言模型的开源科学引擎，在蛋白质相互作用（尤其是抗体）预测上取得了最先进性能，并发布了68亿蛋白质图谱和11亿预测结构。文章讨论了世界模型在蛋白质生物学中的应用，以及如何通过稀疏自编码器提取语义特征实现可编程生物学。

来源Latent Space作者: RJ Honicky

BioHub 的首席科学家 Alex Rives 近日宣布推出 ESMFold2，这是一个开源的蛋白质科学引擎，旨在推动蛋白质预测、设计和发现的前沿。ESMFold2 建立在早期 ESM 系列模型的基础上，这些模型通过简单的“下一个 token”目标对来自生命界的数百万蛋白质序列进行无监督训练。令人惊讶的是，这些模型不仅学会了序列模式，还内化了蛋白质的结构和功能属性，并且这种能力随计算量可预测地扩展，最终催生了 ESM2、ESM3 直至今天的 ESMC 世界模型和 ESMFold2 结构预测头。

ESMFold2 在蛋白质相互作用预测上取得了最先进的性能，尤其是在抗体这一治疗关键领域。传统上，AlphaFold2 等模型依赖于多序列比对（MSA）来捕捉共进化信息，但抗体因突变迅速而缺乏可靠的 MSA，导致 AlphaFold 表现不佳。ESMFold2 跳过了 MSA 依赖，直接通过大规模无监督学习从序列多样性中学习蛋白质关系，然后关联到已知结构。这种方法本质上构建了一个蛋白质的“世界模型”——通过无监督训练学习语义抽象，支持组合和泛化，从而能预测未见过的蛋白质属性。

为了展示其能力，BioHub 同时发布了包含 68 亿蛋白质序列和 11 亿预测结构的开放图谱，用户可以在其网站上自由探索。Rives 在播客中详细讨论了如何利用这一世界模型进行蛋白质设计：先生成序列，再用模型预测其结合亲和力等特性，然后在湿实验室中验证最难的分子。此外，团队还使用稀疏自编码器（SAE）从模型内部提取语义特征，这些特征对应于从局部氨基酸性质到整体结构域（如免疫球蛋白折叠）的层次化概念，甚至包括无序区域和二硫键等非结构特征。这为理解蛋白质功能提供了一种全新的“可编程生物学”视角，其中细胞核被视为存储设备，核糖体类似即时编译器，而 SAE 特征则充当函数，蛋白质如同进程，共同在信号通路中产生表型输出。

Rives 还分享了 BioHub 的愿景：通过新的数据收集原则和细胞级建模，最终实现生物学的可编程化。这一发布标志着蛋白质科学向开放、可扩展且数据驱动的未来迈出了重要一步。