AI News HubLIVE
站内改写

大規模資料集與基準:蛋白質-配體模型學習的是結合位點還是僅僅結合可能性?

現有蛋白質-配體基準通常評估蛋白質與配體是否相互作用及結合強度,但無法判斷模型是否能夠定位結合位點或識別分子識別中的非共價相互作用。為此,研究者引入InteractBind,一個包含約10萬對蛋白質-配體的大規模資料集及細粒度評估基準,透過六種非共價相互作用型別的殘基-原子相互作用圖來評估結合位點定位能力。評估八個現有模型發現,儘管二元結合預測表現強勁,但結合位點定位能力有限,且在不同非共價相互作用型別間差異顯著。InteractBind鼓勵開發更具可解釋性和物理基礎的蛋白質-配體模型。

文章情報

投資人進階

要點

  • InteractBind包含約10萬對蛋白質-配體資料,提供結合位點定位的細粒度基準。
  • 基準使用六種非共價相互作用的殘基-原子相互作用圖來評估模型是否真正學習了結合位點。
  • 評估八個模型發現,二元結合預測準確率高,但結合位點定位能力有限。
  • 不同非共價相互作用型別上的定位表現差異顯著,凸顯了模型物理基礎的不足。

為什麼重要

這條新聞值得關注,因為InteractBind包含約10萬對蛋白質-配體資料,提供結合位點定位的細粒度基準。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

蛋白質-配體建模是計算藥物發現和分子設計的基石。現有的蛋白質-配體基準通常只關注二元結合預測和親和力迴歸,這些任務只能判斷蛋白質與配體是否結合以及結合強度,卻無法揭示模型是否真正理解了結合位點的位置以及驅動分子識別的非共價相互作用。為了填補這一關鍵空白,來自多所機構的研究人員聯合推出了InteractBind——一個包含約10萬對蛋白質-配體的大規模資料集,並配套設計了細粒度評估基準。

InteractBind的核心任務是結合位點定位。它利用蛋白質殘基與配體原子之間的相互作用圖,覆蓋六種主要非共價相互作用型別(包括氫鍵、疏水相互作用、π-π堆積、靜電相互作用、範德華力和滷鍵),來評估模型生成的相互作用圖是否能夠準確指示結合位點。此外,該資料集還提供了基於結合親和力和蛋白質相似性的資料劃分,以支援更現實的泛化能力評估。

研究團隊選擇了八個現有模型——包括基於序列的模型(如ESM-IF、ProteinBERT)和基於相互作用資訊的模型(如GraphBind、DeepInteract)——在InteractBind上進行了二元結合預測和結合位點定位兩項測試。結果令人深思:所有模型在二元結合預測任務上都表現出色,AUC和精確率均超過0.9,但在結合位點定位任務上效能有限,平均精確率僅0.3左右,且不同非共價相互作用型別之間的差異顯著。例如,模型在氫鍵和疏水相互作用的定位上表現較好,但在π-π堆積和滷鍵上幾乎無法識別。這表明,當前模型可能只是學到了結合的可能性,而非真正的結合位點知識。

InteractBind的釋出為蛋白質-配體建模領域樹立了一個新的基準正規化。它強調了開發更具可解釋性和物理基礎的模型的必要性,有望推動計算分子識別研究向更深層次發展。該工作目前正在接受NeurIPS 2026會議評估與資料集軌道的審稿,其資料集和基準程式碼已開源釋出,供社群使用。