2026-06-12站内改写2 分钟阅读更新: 2026-06-12

MARD：镜像增强推理蒸馏用于机制级药物相互作用预测

本文提出了一种用于机制级药物相互作用（DDI）预测的可复现标注与评估协议，包含7家族147亚型分类法和泄漏安全的冷分片策略。并开发了7B参数的MARD模型，融合单令牌KL散度、PRM加权DPO和机制感知检索通道三项创新。在2026年4月DrugBank数据集上，MARD-7B是32个系统中唯一在药物对新颖性下保持准确率的模型，比最佳基线高13.9个百分点，比GPT-4o高6.7个百分点，成本仅为前沿API的1%。分析表明其优势源于结构化药理推理而非药物频率记忆。

来源arXiv Computational Linguistics作者: Mohammadreza Riyazat, Vian Lelo, Rameen Jafri, Yumna Khan, Abeer Badawi

近年来，药物相互作用（DDI）预测在精准医疗和药物安全领域变得愈发重要。然而，传统的DDI预测方法通常只输出二元结果——两种药物是否相互作用，而无法揭示相互作用的机制层面细节，例如涉及哪种酶或药效学轴、相互作用的方向以及支持证据。为了填补这一空白，一项最新研究提出了MARD（Mirror-Augmented Reasoning Distillation，镜像增强推理蒸馏）框架，旨在实现机制级的DDI预测。

研究团队首先建立了一套可复现的标注与评估协议。该协议的核心包括一个结构化的7家族147亚型分类法，用于细致描述DDI的机制类型；以及泄漏安全的冷分片策略，确保模型在评估时不会因数据泄露而获得不公平优势。此外，协议还引入了可审计的推理指标，用于评估药理预测的准确性，超越了简单的扁平交互分类。这些设计为机制级DDI预测提供了一个标准化的评估基准。

基于这一协议，研究人员开发了MARD-7B模型，这是一个拥有7B参数的推理模型。其训练过程融合了三项技术创新：第一，单令牌KL散度损失函数，用于预测方向标签（例如哪种药物抑制或诱导哪种酶），从而将模型的预测与机制方向紧密绑定；第二，每损失过程奖励模型（PRM）加权直接偏好优化（DPO），结合程序化生成的硬负样本，以强化模型的推理能力；第三，泄漏安全的机制感知检索通道，允许模型在推理时检索相关的药理知识。值得注意的是，过程奖励步骤标签可以自动通过DrugBank的结构化字段验证，无需人工或大型语言模型（LLM）评判，从而大大降低了标注成本。

在2026年4月发布的DrugBank数据集上，MARD-7B在32个系统的对比评估中表现卓越。它是在药物对新颖性条件下唯一保持准确率的系统，即在面对训练中从未见过的药物组合时，其预测性能几乎不下降。具体而言，MARD-7B比最佳基线高出13.9个百分点，比GPT-4o高出6.7个百分点，而推理成本仅为前沿API的约1%。进一步的分析揭示了一个抗记忆化特征：模型在罕见药物上的准确率反而更高，这表明其性能提升主要源于结构化的药理推理能力，而非对常见药物频率的记忆。

研究团队已经公开了语料库、DDI-PRM、检索索引和训练代码，以促进该领域的进一步研究和应用。这项工作为机制级DDI预测提供了新的范式，不仅建立了强大的基准模型，还定义了可复现的评估方法，有望推动药物相互作用研究的深入发展。