2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

MARD：映象增強推理蒸餾用於機制級藥物相互作用預測

本文提出了一種用於機制級藥物相互作用（DDI）預測的可復現標註與評估協議，包含7家族147亞型分類法和洩漏安全的冷分片策略。並開發了7B引數的MARD模型，融合單令牌KL散度、PRM加權DPO和機制感知檢索通道三項創新。在2026年4月DrugBank資料集上，MARD-7B是32個系統中唯一在藥物對新穎性下保持準確率的模型，比最佳基線高13.9個百分點，比GPT-4o高6.7個百分點，成本僅為前沿API的1%。分析表明其優勢源於結構化藥理推理而非藥物頻率記憶。

來源arXiv Computational Linguistics作者: Mohammadreza Riyazat, Vian Lelo, Rameen Jafri, Yumna Khan, Abeer Badawi

近年來，藥物相互作用（DDI）預測在精準醫療和藥物安全領域變得愈發重要。然而，傳統的DDI預測方法通常只輸出二元結果——兩種藥物是否相互作用，而無法揭示相互作用的機制層面細節，例如涉及哪種酶或藥效學軸、相互作用的方向以及支援證據。為了填補這一空白，一項最新研究提出了MARD（Mirror-Augmented Reasoning Distillation，映象增強推理蒸餾）框架，旨在實現機制級的DDI預測。

研究團隊首先建立了一套可復現的標註與評估協議。該協議的核心包括一個結構化的7家族147亞型分類法，用於細緻描述DDI的機制型別；以及洩漏安全的冷分片策略，確保模型在評估時不會因資料洩露而獲得不公平優勢。此外，協議還引入了可審計的推理指標，用於評估藥理預測的準確性，超越了簡單的扁平互動分類。這些設計為機制級DDI預測提供了一個標準化的評估基準。

基於這一協議，研究人員開發了MARD-7B模型，這是一個擁有7B引數的推理模型。其訓練過程融合了三項技術創新：第一，單令牌KL散度損失函式，用於預測方向標籤（例如哪種藥物抑制或誘導哪種酶），從而將模型的預測與機制方向緊密繫結；第二，每損失過程獎勵模型（PRM）加權直接偏好最佳化（DPO），結合程式化生成的硬負樣本，以強化模型的推理能力；第三，洩漏安全的機制感知檢索通道，允許模型在推理時檢索相關的藥理知識。值得注意的是，過程獎勵步驟標籤可以自動透過DrugBank的結構化欄位驗證，無需人工或大型語言模型（LLM）評判，從而大大降低了標註成本。

在2026年4月釋出的DrugBank資料集上，MARD-7B在32個系統的對比評估中表現卓越。它是在藥物對新穎性條件下唯一保持準確率的系統，即在面對訓練中從未見過的藥物組合時，其預測效能幾乎不下降。具體而言，MARD-7B比最佳基線高出13.9個百分點，比GPT-4o高出6.7個百分點，而推理成本僅為前沿API的約1%。進一步的分析揭示了一個抗記憶化特徵：模型在罕見藥物上的準確率反而更高，這表明其效能提升主要源於結構化的藥理推理能力，而非對常見藥物頻率的記憶。

研究團隊已經公開了語料庫、DDI-PRM、檢索索引和訓練程式碼，以促進該領域的進一步研究和應用。這項工作為機制級DDI預測提供了新的正規化，不僅建立了強大的基準模型，還定義了可復現的評估方法，有望推動藥物相互作用研究的深入發展。