MARD:映象增強推理蒸餾用於機制級藥物相互作用預測
本文提出了一種用於機制級藥物相互作用(DDI)預測的可復現標註與評估協議,包含7家族147亞型分類法和洩漏安全的冷分片策略。並開發了7B引數的MARD模型,融合單令牌KL散度、PRM加權DPO和機制感知檢索通道三項創新。在2026年4月DrugBank資料集上,MARD-7B是32個系統中唯一在藥物對新穎性下保持準確率的模型,比最佳基線高13.9個百分點,比GPT-4o高6.7個百分點,成本僅為前沿API的1%。分析表明其優勢源於結構化藥理推理而非藥物頻率記憶。
近年來,藥物相互作用(DDI)預測在精準醫療和藥物安全領域變得愈發重要。然而,傳統的DDI預測方法通常只輸出二元結果——兩種藥物是否相互作用,而無法揭示相互作用的機制層面細節,例如涉及哪種酶或藥效學軸、相互作用的方向以及支援證據。為了填補這一空白,一項最新研究提出了MARD(Mirror-Augmented Reasoning Distillation,映象增強推理蒸餾)框架,旨在實現機制級的DDI預測。
研究團隊首先建立了一套可復現的標註與評估協議。該協議的核心包括一個結構化的7家族147亞型分類法,用於細緻描述DDI的機制型別;以及洩漏安全的冷分片策略,確保模型在評估時不會因資料洩露而獲得不公平優勢。此外,協議還引入了可審計的推理指標,用於評估藥理預測的準確性,超越了簡單的扁平互動分類。這些設計為機制級DDI預測提供了一個標準化的評估基準。
基於這一協議,研究人員開發了MARD-7B模型,這是一個擁有7B引數的推理模型。其訓練過程融合了三項技術創新:第一,單令牌KL散度損失函式,用於預測方向標籤(例如哪種藥物抑制或誘導哪種酶),從而將模型的預測與機制方向緊密繫結;第二,每損失過程獎勵模型(PRM)加權直接偏好最佳化(DPO),結合程式化生成的硬負樣本,以強化模型的推理能力;第三,洩漏安全的機制感知檢索通道,允許模型在推理時檢索相關的藥理知識。值得注意的是,過程獎勵步驟標籤可以自動透過DrugBank的結構化欄位驗證,無需人工或大型語言模型(LLM)評判,從而大大降低了標註成本。
在2026年4月釋出的DrugBank資料集上,MARD-7B在32個系統的對比評估中表現卓越。它是在藥物對新穎性條件下唯一保持準確率的系統,即在面對訓練中從未見過的藥物組合時,其預測效能幾乎不下降。具體而言,MARD-7B比最佳基線高出13.9個百分點,比GPT-4o高出6.7個百分點,而推理成本僅為前沿API的約1%。進一步的分析揭示了一個抗記憶化特徵:模型在罕見藥物上的準確率反而更高,這表明其效能提升主要源於結構化的藥理推理能力,而非對常見藥物頻率的記憶。
研究團隊已經公開了語料庫、DDI-PRM、檢索索引和訓練程式碼,以促進該領域的進一步研究和應用。這項工作為機制級DDI預測提供了新的正規化,不僅建立了強大的基準模型,還定義了可復現的評估方法,有望推動藥物相互作用研究的深入發展。