2026-06-12站内改写1 分钟阅读更新: 2026-06-12

分析与改进医学大型视觉语言模型中的细粒度偏好优化

医学大型视觉语言模型（LVLMs）在医学影像任务中表现优异，但仍存在事实不一致、视觉基础薄弱等问题。现有对齐方法在医学领域有三大局限：序列级奖励信号无法区分关键临床标记；依赖静态监督微调导致分布偏移；缺乏显式视觉约束。本文提出一种细粒度、在策略的对齐框架，利用双向逐词KL正则化器和视觉对比基础目标，通过最小限度编辑模型输出构建偏好对，仅纠正临床错误部分，同时保持语言风格。实验验证了该方法的有效性。

来源arXiv Computer Vision作者: Shayan Mohammadizadehsamakosh, Pritam Sarkar, Leonid Sigal, Ali Etemad, Elham Dolatabadi

医学大型视觉语言模型（LVLMs）在解读医学影像和生成临床报告方面展现出强大能力，但它们在事实一致性、视觉基础及与临床反馈对齐方面仍存在不足。当前主流后训练对齐方法，如直接偏好优化（DPO）及其变体，在医学应用中面临三大关键挑战。

首先，序列级奖励信号将临床关键标记与通用填充词等同处理，无法给予充分关注。例如，在放射学报告中，一个关键的病理发现可能被模型视为与无关紧要的词汇同等重要，导致模型对重要信息不够敏感。其次，依赖静态监督微调参考作为偏好响应，导致策略分布偏移，使优化偏向风格化伪影而非临床正确性。这意味着模型可能学会生成流畅但医学上不准确的描述。最后，对齐目标缺乏显式的视觉基础约束，使得模型对诊断关键但微小的病理特征不敏感，如早期病变的细微变化。

针对这些问题，研究人员提出了一种创新的细粒度、在策略对齐框架。该框架的核心包括两个关键组件：双向逐词KL正则化器（bidirectional token-wise KL regularizer）和视觉对比基础目标（visual-contrastive grounding objective）。前者逐词约束模型输出与偏好响应之间的差异，确保对临床关键标记的精细调整；后者通过配对干净图像和带病变的图像，惩罚那些缺乏充分视觉证据的生成响应，从而强制模型关注诊断相关的病理特征。

该框架采用在策略方式构建偏好对：通过最小限度编辑模型自身生成的输出，仅纠正其中临床错误的片段，同时保留原有的语言风格。这种方法避免了传统方法中因使用外部参考导致的分布偏移，并使优化目标更加集中于临床准确性。

研究者在多个医学影像任务和临床文本生成基准上进行了广泛实验，涵盖放射学报告生成、病理图像描述等场景。与现有方法相比，该框架在临床正确性指标上取得了显著提升，同时保持了输出的流畅性和自然度。实验结果充分验证了该方法的有效性，为医学LVLM的可靠部署提供了新的技术路径。