2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:18 UTC+8

协同感知-推理治理：用可验证的解剖学证据为医疗多模态大模型奠基

本文提出了一种无需额外训练的证据注入框架，通过利用MedSAM获取的感兴趣区域先验，重新校准视觉感知轨迹并锚定文本推理轨迹，从而系统性地减轻医疗多模态大模型在临床问答和放射学报告生成中的幻觉问题。在多个模型和数据集上的实验表明，该方法能显著提升闭式问答准确率（最高提升约6%）并减少开放式幻觉（约35%）。

来源arXiv Computer Vision作者: Rui Hao, Qiankun Li, Junyuan Mao, Linghao Meng, Dirui Xie, Dayu Tan, Zhigang Zeng

多模态大语言模型（MLLMs）在临床视觉问答和放射学报告生成方面展现出巨大潜力，但推理时的幻觉问题仍阻碍其可信应用——模型可能生成与影像证据相矛盾的流畅结论。现有缓解策略通常依赖额外训练、外部检索/知识库或多阶段事后验证，这增加了成本和流程复杂性，且在不同模型和任务间泛化能力不佳。

针对这一挑战，来自研究者团队提出了一种全新的无训练证据注入框架（Synergistic Perception-Reasoning Governance, SPRG），通过系统性的双端证据注入来缓解幻觉。该框架首先利用MedSAM获取的感兴趣区域先验，通过ROI引导的激活调制重新校准视觉感知轨迹；同时，通过将解剖坐标映射为离散语义令牌作为可验证的外部记忆，锚定文本推理轨迹。在此基础上，引入任务感知动态路由器，根据任务语义选择模态特定的干预策略，从而平衡感知基础与语言流畅性。

研究团队在2个任务和5个数据集上进行了系统评估，使用了LLaVA-1.5-7B、LLaVA-Med-1.5-7B、Qwen3-VL-8B/32B和InternVL-3.5-8B/38B等多种模型。控制消融实验和可视化进一步验证了该框架的有效性，其在医疗基准测试中持续优于基线，闭式问答准确率提升高达约6%，开放式幻觉减少约35%。该论文已被MICCAI 2026接收（早期接收，前9%），代码已在GitHub上开源。