AI News HubLIVE
站内改写1 分钟阅读

分析与改进医学大型视觉语言模型中的细粒度偏好优化

医学大型视觉语言模型(LVLMs)在医学影像任务中表现优异,但仍存在事实不一致、视觉基础薄弱等问题。现有对齐方法在医学领域有三大局限:序列级奖励信号无法区分关键临床标记;依赖静态监督微调导致分布偏移;缺乏显式视觉约束。本文提出一种细粒度、在策略的对齐框架,利用双向逐词KL正则化器和视觉对比基础目标,通过最小限度编辑模型输出构建偏好对,仅纠正临床错误部分,同时保持语言风格。实验验证了该方法的有效性。

来源arXiv Computer Vision作者: Shayan Mohammadizadehsamakosh, Pritam Sarkar, Leonid Sigal, Ali Etemad, Elham Dolatabadi

医学大型视觉语言模型(LVLMs)在解读医学影像和生成临床报告方面展现出强大能力,但它们在事实一致性、视觉基础及与临床反馈对齐方面仍存在不足。当前主流后训练对齐方法,如直接偏好优化(DPO)及其变体,在医学应用中面临三大关键挑战。

首先,序列级奖励信号将临床关键标记与通用填充词等同处理,无法给予充分关注。例如,在放射学报告中,一个关键的病理发现可能被模型视为与无关紧要的词汇同等重要,导致模型对重要信息不够敏感。其次,依赖静态监督微调参考作为偏好响应,导致策略分布偏移,使优化偏向风格化伪影而非临床正确性。这意味着模型可能学会生成流畅但医学上不准确的描述。最后,对齐目标缺乏显式的视觉基础约束,使得模型对诊断关键但微小的病理特征不敏感,如早期病变的细微变化。

针对这些问题,研究人员提出了一种创新的细粒度、在策略对齐框架。该框架的核心包括两个关键组件:双向逐词KL正则化器(bidirectional token-wise KL regularizer)和视觉对比基础目标(visual-contrastive grounding objective)。前者逐词约束模型输出与偏好响应之间的差异,确保对临床关键标记的精细调整;后者通过配对干净图像和带病变的图像,惩罚那些缺乏充分视觉证据的生成响应,从而强制模型关注诊断相关的病理特征。

该框架采用在策略方式构建偏好对:通过最小限度编辑模型自身生成的输出,仅纠正其中临床错误的片段,同时保留原有的语言风格。这种方法避免了传统方法中因使用外部参考导致的分布偏移,并使优化目标更加集中于临床准确性。

研究者在多个医学影像任务和临床文本生成基准上进行了广泛实验,涵盖放射学报告生成、病理图像描述等场景。与现有方法相比,该框架在临床正确性指标上取得了显著提升,同时保持了输出的流畅性和自然度。实验结果充分验证了该方法的有效性,为医学LVLM的可靠部署提供了新的技术路径。