2026-06-19站内改写1 分钟阅读更新: 2026-06-19

语言指导的视觉嵌入：实现可控且泛化的感知

语言指导的视觉嵌入（LIVE）方法利用语言作为高级指导，在推理时动态生成任务中心的嵌入表示，无需针对特定任务重新训练。该方法在MMVP基准上减少了34个点的视觉幻觉，在视觉问答上超越了参数数量大数个数量级的视觉-语言模型，并能泛化到未见过的指令和任务。

来源arXiv Computer Vision作者: Chengzhi Mao, Xudong Lin, Wen-Sheng Chu

视觉基础模型（如CLIP、DINO）通常被训练为静态特征提取器，它们为所有输入图像生成固定的全局或局部特征表示。这种设计的缺点在于，任务适应的负担完全转嫁到了下游模型（例如大型语言模型）上，导致下游模型需要处理大量无关的视觉信息，并且在不同任务之间迁移时需要昂贵的重新训练或微调。为了解决这一问题，麻省理工学院（MIT）的程志毛（Chengzhi Mao）等研究者提出了语言指导的视觉嵌入（LIVE）方法。LIVE的核心理念是：利用语言本身作为高级语义指导，在推理时动态地引导视觉编码器提取与当前任务相关的特征。具体来说，语言指令（例如问题或描述）被输入到视觉编码器中，指示编码器关注图像中与指令相关的区域或属性，从而生成任务中心的嵌入表示。这种方法不需要针对每个任务重新训练视觉编码器，极大地提高了模型的灵活性和效率。在实验中，LIVE在MMVP基准上取得了显著的改进，将视觉幻觉减少了34个百分点；在视觉问答（VQA）任务上，尽管使用了更少的参数，却超越了参数数量大几个数量级的现有视觉-语言模型。此外，LIVE还展现出了强大的泛化能力，能够处理在训练过程中从未见过的指令和任务组合。这项研究已被ICLR 2026接收为会议论文，并于2026年6月17日提交至arXiv（编号2606.19584）。研究者表示，代码和模型将在未来开源，这将为视觉-语言领域的研究和应用带来新的可能性。LIVE的成功表明，语言不仅可以作为理解的输出，还可以作为感知过程的动态指导，为实现真正可控和泛化的视觉智能铺平了道路。