大规模数据集与基准:蛋白质-配体模型学习的是结合位点还是仅仅结合可能性?
现有蛋白质-配体基准通常评估蛋白质与配体是否相互作用及结合强度,但无法判断模型是否能够定位结合位点或识别分子识别中的非共价相互作用。为此,研究者引入InteractBind,一个包含约10万对蛋白质-配体的大规模数据集及细粒度评估基准,通过六种非共价相互作用类型的残基-原子相互作用图来评估结合位点定位能力。评估八个现有模型发现,尽管二元结合预测表现强劲,但结合位点定位能力有限,且在不同非共价相互作用类型间差异显著。InteractBind鼓励开发更具可解释性和物理基础的蛋白质-配体模型。
文章情报
要点
- InteractBind包含约10万对蛋白质-配体数据,提供结合位点定位的细粒度基准。
- 基准使用六种非共价相互作用的残基-原子相互作用图来评估模型是否真正学习了结合位点。
- 评估八个模型发现,二元结合预测准确率高,但结合位点定位能力有限。
- 不同非共价相互作用类型上的定位表现差异显著,凸显了模型物理基础的不足。
为什么重要
这条新闻值得关注,因为InteractBind包含约10万对蛋白质-配体数据,提供结合位点定位的细粒度基准。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
蛋白质-配体建模是计算药物发现和分子设计的基石。现有的蛋白质-配体基准通常只关注二元结合预测和亲和力回归,这些任务只能判断蛋白质与配体是否结合以及结合强度,却无法揭示模型是否真正理解了结合位点的位置以及驱动分子识别的非共价相互作用。为了填补这一关键空白,来自多所机构的研究人员联合推出了InteractBind——一个包含约10万对蛋白质-配体的大规模数据集,并配套设计了细粒度评估基准。
InteractBind的核心任务是结合位点定位。它利用蛋白质残基与配体原子之间的相互作用图,覆盖六种主要非共价相互作用类型(包括氢键、疏水相互作用、π-π堆积、静电相互作用、范德华力和卤键),来评估模型生成的相互作用图是否能够准确指示结合位点。此外,该数据集还提供了基于结合亲和力和蛋白质相似性的数据划分,以支持更现实的泛化能力评估。
研究团队选择了八个现有模型——包括基于序列的模型(如ESM-IF、ProteinBERT)和基于相互作用信息的模型(如GraphBind、DeepInteract)——在InteractBind上进行了二元结合预测和结合位点定位两项测试。结果令人深思:所有模型在二元结合预测任务上都表现出色,AUC和精确率均超过0.9,但在结合位点定位任务上性能有限,平均精确率仅0.3左右,且不同非共价相互作用类型之间的差异显著。例如,模型在氢键和疏水相互作用的定位上表现较好,但在π-π堆积和卤键上几乎无法识别。这表明,当前模型可能只是学到了结合的可能性,而非真正的结合位点知识。
InteractBind的发布为蛋白质-配体建模领域树立了一个新的基准范式。它强调了开发更具可解释性和物理基础的模型的必要性,有望推动计算分子识别研究向更深层次发展。该工作目前正在接受NeurIPS 2026会议评估与数据集轨道的审稿,其数据集和基准代码已开源发布,供社区使用。