重新利用蛋白质折叠模型进行潜扩散生成
PLAID是一种多模态生成模型,通过学习蛋白质折叠模型的潜空间,同时生成蛋白质的一维序列和三维结构。它仅需序列数据训练,并支持功能与生物体提示,解决了全原子生成、生物体特异性和控制规范等实际问题。
2024年诺贝尔化学奖授予AlphaFold2,这标志着人工智能在生物学领域的作用获得了重要认可。在蛋白质结构预测取得突破之后,下一步是什么?PLAID(蛋白质潜扩散生成模型)应运而生,它是一种多模态生成模型,通过利用蛋白质折叠模型(如ESMFold)的潜在空间来生成新的蛋白质。与许多现有模型不同,PLAID能够同时生成蛋白质的一维序列和三维全原子结构坐标,解决了多模态共生成这一难题。
从结构预测到实际药物设计,现有扩散模型仍存在诸多局限性。例如,全原子生成需要知道序列信息才能放置侧链原子,而许多模型仅生成主链原子。此外,针对人类使用的蛋白质生物制品需要进行人源化改造以避免免疫排斥,而药物发现过程中还需考虑溶解度等复杂约束。PLAID通过提供组合功能与生物体提示的界面,实现了对蛋白质生成的精细控制,类似于图像生成中的文本提示。具体而言,PLAID能够学习金属蛋白中常见的四面体半胱氨酸-铁配位模式,同时保持序列水平的高度多样性。
PLAID的一个关键优势是仅使用序列数据来训练生成模型。序列数据库规模比结构数据库大2到4个数量级,且获取成本更低。训练时,模型学习蛋白质折叠模型潜在空间上的扩散过程;推理时,利用冻结的折叠模型权重解码出序列和结构。这种方法类似于机器人领域中的视觉-语言-动作模型,后者利用互联网规模数据训练的视觉-语言模型提供的先验知识来增强感知和理解能力。
然而,直接应用这种方法面临一个挑战:ESMFold等Transformer模型的潜在空间需要大量正则化,且维度极高,类似于高分辨率图像合成。为此,团队提出了CHEAP(压缩沙漏嵌入适应蛋白质)方法,通过联合嵌入压缩模型来学习蛋白质序列和结构的紧凑表示。通过机制可解释性分析,他们发现该潜在空间实际上高度可压缩,从而成功构建了全原子蛋白质生成模型。
未来,该方法可推广到任何存在丰富模态到稀缺模态预测器的多模态生成任务。例如,随着AlphaFold3等模型能够预测蛋白质与核酸、配体的复合物,PLAID的方法有望用于更复杂系统的多模态生成。研究人员还邀请合作者共同扩展该方法,并进行湿实验验证。相关论文和代码已在bioRxiv上发布。