AI News HubLIVE
站内改写2 分钟阅读

MARD:镜像增强推理蒸馏用于机制级药物相互作用预测

本文提出了一种用于机制级药物相互作用(DDI)预测的可复现标注与评估协议,包含7家族147亚型分类法和泄漏安全的冷分片策略。并开发了7B参数的MARD模型,融合单令牌KL散度、PRM加权DPO和机制感知检索通道三项创新。在2026年4月DrugBank数据集上,MARD-7B是32个系统中唯一在药物对新颖性下保持准确率的模型,比最佳基线高13.9个百分点,比GPT-4o高6.7个百分点,成本仅为前沿API的1%。分析表明其优势源于结构化药理推理而非药物频率记忆。

来源arXiv Computational Linguistics作者: Mohammadreza Riyazat, Vian Lelo, Rameen Jafri, Yumna Khan, Abeer Badawi

近年来,药物相互作用(DDI)预测在精准医疗和药物安全领域变得愈发重要。然而,传统的DDI预测方法通常只输出二元结果——两种药物是否相互作用,而无法揭示相互作用的机制层面细节,例如涉及哪种酶或药效学轴、相互作用的方向以及支持证据。为了填补这一空白,一项最新研究提出了MARD(Mirror-Augmented Reasoning Distillation,镜像增强推理蒸馏)框架,旨在实现机制级的DDI预测。

研究团队首先建立了一套可复现的标注与评估协议。该协议的核心包括一个结构化的7家族147亚型分类法,用于细致描述DDI的机制类型;以及泄漏安全的冷分片策略,确保模型在评估时不会因数据泄露而获得不公平优势。此外,协议还引入了可审计的推理指标,用于评估药理预测的准确性,超越了简单的扁平交互分类。这些设计为机制级DDI预测提供了一个标准化的评估基准。

基于这一协议,研究人员开发了MARD-7B模型,这是一个拥有7B参数的推理模型。其训练过程融合了三项技术创新:第一,单令牌KL散度损失函数,用于预测方向标签(例如哪种药物抑制或诱导哪种酶),从而将模型的预测与机制方向紧密绑定;第二,每损失过程奖励模型(PRM)加权直接偏好优化(DPO),结合程序化生成的硬负样本,以强化模型的推理能力;第三,泄漏安全的机制感知检索通道,允许模型在推理时检索相关的药理知识。值得注意的是,过程奖励步骤标签可以自动通过DrugBank的结构化字段验证,无需人工或大型语言模型(LLM)评判,从而大大降低了标注成本。

在2026年4月发布的DrugBank数据集上,MARD-7B在32个系统的对比评估中表现卓越。它是在药物对新颖性条件下唯一保持准确率的系统,即在面对训练中从未见过的药物组合时,其预测性能几乎不下降。具体而言,MARD-7B比最佳基线高出13.9个百分点,比GPT-4o高出6.7个百分点,而推理成本仅为前沿API的约1%。进一步的分析揭示了一个抗记忆化特征:模型在罕见药物上的准确率反而更高,这表明其性能提升主要源于结构化的药理推理能力,而非对常见药物频率的记忆。

研究团队已经公开了语料库、DDI-PRM、检索索引和训练代码,以促进该领域的进一步研究和应用。这项工作为机制级DDI预测提供了新的范式,不仅建立了强大的基准模型,还定义了可复现的评估方法,有望推动药物相互作用研究的深入发展。