AI News HubLIVE
站内改写1 分钟阅读

语言指导的视觉嵌入:实现可控且泛化的感知

语言指导的视觉嵌入(LIVE)方法利用语言作为高级指导,在推理时动态生成任务中心的嵌入表示,无需针对特定任务重新训练。该方法在MMVP基准上减少了34个点的视觉幻觉,在视觉问答上超越了参数数量大数个数量级的视觉-语言模型,并能泛化到未见过的指令和任务。

来源arXiv Computer Vision作者: Chengzhi Mao, Xudong Lin, Wen-Sheng Chu

视觉基础模型(如CLIP、DINO)通常被训练为静态特征提取器,它们为所有输入图像生成固定的全局或局部特征表示。这种设计的缺点在于,任务适应的负担完全转嫁到了下游模型(例如大型语言模型)上,导致下游模型需要处理大量无关的视觉信息,并且在不同任务之间迁移时需要昂贵的重新训练或微调。为了解决这一问题,麻省理工学院(MIT)的程志毛(Chengzhi Mao)等研究者提出了语言指导的视觉嵌入(LIVE)方法。LIVE的核心理念是:利用语言本身作为高级语义指导,在推理时动态地引导视觉编码器提取与当前任务相关的特征。具体来说,语言指令(例如问题或描述)被输入到视觉编码器中,指示编码器关注图像中与指令相关的区域或属性,从而生成任务中心的嵌入表示。这种方法不需要针对每个任务重新训练视觉编码器,极大地提高了模型的灵活性和效率。在实验中,LIVE在MMVP基准上取得了显著的改进,将视觉幻觉减少了34个百分点;在视觉问答(VQA)任务上,尽管使用了更少的参数,却超越了参数数量大几个数量级的现有视觉-语言模型。此外,LIVE还展现出了强大的泛化能力,能够处理在训练过程中从未见过的指令和任务组合。这项研究已被ICLR 2026接收为会议论文,并于2026年6月17日提交至arXiv(编号2606.19584)。研究者表示,代码和模型将在未来开源,这将为视觉-语言领域的研究和应用带来新的可能性。LIVE的成功表明,语言不仅可以作为理解的输出,还可以作为感知过程的动态指导,为实现真正可控和泛化的视觉智能铺平了道路。