2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:18 UTC+8

協同感知-推理治理：用可驗證的解剖學證據為醫療多模態大模型奠基

本文提出了一種無需額外訓練的證據注入框架，通過利用MedSAM獲取的感興趣區域先驗，重新校準視覺感知軌跡並錨定文本推理軌跡，從而系統性地減輕醫療多模態大模型在臨牀問答和放射學報告生成中的幻覺問題。在多個模型和數據集上的實驗表明，該方法能顯著提升閉式問答準確率（最高提升約6%）並減少開放式幻覺（約35%）。

來源arXiv Computer Vision作者: Rui Hao, Qiankun Li, Junyuan Mao, Linghao Meng, Dirui Xie, Dayu Tan, Zhigang Zeng

多模態大語言模型（MLLMs）在臨牀視覺問答和放射學報告生成方面展現出巨大潛力，但推理時的幻覺問題仍阻礙其可信應用——模型可能生成與影像證據相矛盾的流暢結論。現有緩解策略通常依賴額外訓練、外部檢索/知識庫或多階段事後驗證，這增加了成本和流程複雜性，且在不同模型和任務間泛化能力不佳。

針對這一挑戰，來自研究者團隊提出了一種全新的無訓練證據注入框架（Synergistic Perception-Reasoning Governance, SPRG），通過系統性的雙端證據注入來緩解幻覺。該框架首先利用MedSAM獲取的感興趣區域先驗，通過ROI引導的激活調製重新校準視覺感知軌跡；同時，通過將解剖座標映射為離散語義令牌作為可驗證的外部記憶，錨定文本推理軌跡。在此基礎上，引入任務感知動態路由器，根據任務語義選擇模態特定的干預策略，從而平衡感知基礎與語言流暢性。

研究團隊在2個任務和5個數據集上進行了系統評估，使用了LLaVA-1.5-7B、LLaVA-Med-1.5-7B、Qwen3-VL-8B/32B和InternVL-3.5-8B/38B等多種模型。控制消融實驗和可視化進一步驗證了該框架的有效性，其在醫療基準測試中持續優於基線，閉式問答準確率提升高達約6%，開放式幻覺減少約35%。該論文已被MICCAI 2026接收（早期接收，前9%），代碼已在GitHub上開源。