AI News HubLIVE
站内改写2 分鐘閱讀

MARD:鏡像增強推理蒸餾用於機制級藥物相互作用預測

本文提出了一種用於機制級藥物相互作用(DDI)預測的可復現標註與評估協議,包含7家族147亞型分類法和泄漏安全的冷分片策略。並開發了7B參數的MARD模型,融合單令牌KL散度、PRM加權DPO和機制感知檢索通道三項創新。在2026年4月DrugBank數據集上,MARD-7B是32個系統中唯一在藥物對新穎性下保持準確率的模型,比最佳基線高13.9個百分點,比GPT-4o高6.7個百分點,成本僅為前沿API的1%。分析表明其優勢源於結構化藥理推理而非藥物頻率記憶。

來源arXiv Computational Linguistics作者: Mohammadreza Riyazat, Vian Lelo, Rameen Jafri, Yumna Khan, Abeer Badawi

近年來,藥物相互作用(DDI)預測在精準醫療和藥物安全領域變得愈發重要。然而,傳統的DDI預測方法通常只輸出二元結果——兩種藥物是否相互作用,而無法揭示相互作用的機制層面細節,例如涉及哪種酶或藥效學軸、相互作用的方向以及支持證據。為了填補這一空白,一項最新研究提出了MARD(Mirror-Augmented Reasoning Distillation,鏡像增強推理蒸餾)框架,旨在實現機制級的DDI預測。

研究團隊首先建立了一套可復現的標註與評估協議。該協議的核心包括一個結構化的7家族147亞型分類法,用於細緻描述DDI的機制類型;以及泄漏安全的冷分片策略,確保模型在評估時不會因數據泄露而獲得不公平優勢。此外,協議還引入了可審計的推理指標,用於評估藥理預測的準確性,超越了簡單的扁平交互分類。這些設計為機制級DDI預測提供了一個標準化的評估基準。

基於這一協議,研究人員開發了MARD-7B模型,這是一個擁有7B參數的推理模型。其訓練過程融合了三項技術創新:第一,單令牌KL散度損失函數,用於預測方向標籤(例如哪種藥物抑制或誘導哪種酶),從而將模型的預測與機制方向緊密綁定;第二,每損失過程獎勵模型(PRM)加權直接偏好優化(DPO),結合程序化生成的硬負樣本,以強化模型的推理能力;第三,泄漏安全的機制感知檢索通道,允許模型在推理時檢索相關的藥理知識。值得注意的是,過程獎勵步驟標籤可以自動通過DrugBank的結構化字段驗證,無需人工或大型語言模型(LLM)評判,從而大大降低了標註成本。

在2026年4月發佈的DrugBank數據集上,MARD-7B在32個系統的對比評估中表現卓越。它是在藥物對新穎性條件下唯一保持準確率的系統,即在面對訓練中從未見過的藥物組合時,其預測性能幾乎不下降。具體而言,MARD-7B比最佳基線高出13.9個百分點,比GPT-4o高出6.7個百分點,而推理成本僅為前沿API的約1%。進一步的分析揭示了一個抗記憶化特徵:模型在罕見藥物上的準確率反而更高,這表明其性能提升主要源於結構化的藥理推理能力,而非對常見藥物頻率的記憶。

研究團隊已經公開了語料庫、DDI-PRM、檢索索引和訓練代碼,以促進該領域的進一步研究和應用。這項工作為機制級DDI預測提供了新的範式,不僅建立了強大的基準模型,還定義了可復現的評估方法,有望推動藥物相互作用研究的深入發展。