AI News HubLIVE
站内改写2 分钟阅读

消融验证:视觉语言模型真的在使用连续思维标记吗?

本文提出“消融验证”诊断原则及其具体实现——标记替换测试(TRT),用于检验视觉语言模型(VLM)是否真正利用连续潜在标记进行推理。实验表明,即使标记内容被破坏或替换,VLM仍保留大部分性能提升,准确率提升并不能证明模型使用了这些标记进行推理。

来源arXiv Computer Vision作者: Tianyi Zhang, Mahtab Bigverdi, Ranjay Krishna

视觉语言模型(VLM)近年来在架构上不断创新,其中一个显著趋势是引入连续或潜在的非文本标记(即“思维标记”),旨在让模型具备类似人类的“视觉思考”能力。这类标记被嵌入到模型的中间层,期望能够辅助模型进行更复杂的推理。然而,一个关键问题始终存在:这些标记是否真的被模型用于推理,还是仅仅因为其存在而带来了性能提升?为此,来自多所机构的研究人员提出了一种新的诊断原则——消融验证(Ablate-to-Validate),并基于此开发了标记替换测试(Token Replacement Test,TRT),以系统性地检验VLM对连续思维标记的实际利用情况。

TRT的核心思想非常直接:在保持提示、图像、标记预算和解码方式完全不变的前提下,将模型生成的中间潜在标记替换为多种替代内容,包括零向量、随机向量、第一个重复向量或最优替代向量。通过比较替换前后的性能变化,可以判断性能提升究竟依赖于标记的具体内容,还是仅仅依赖于标记的存在本身。研究团队在相对深度推理这一受控任务上进行了实验,使用LLaVA-13B和Qwen2.5-VL-3B两个模型,并训练它们预测和使用连续或离散的深度跨度。这些实验跨越了多种冻结编码器(如SigLIP2、CLIP、DINOv2)和不同的标记预算设置。此外,TRT还被应用于三个现有的视觉思维系统——Mirage、Mull-Tokens和CoVT,并在BLINK、VSP和CV-Bench等标准基准上进行了评估。

实验结果令人深思:在所有测试设置中,即使标记的内容被完全破坏或替换为随机噪声,VLM仍然保留了大部分的性能提升。这意味着,准确率的提高并不能作为模型真正使用这些标记进行推理的证据;相反,这种提升可能来源于其他混淆因素,例如增加的上下文长度、特殊标记的锚定效应或训练时的正则化作用。研究揭示了“拥有潜在通道”与“将其用作信息瓶颈”之间存在持续且显著的差距。基于这些发现,作者强烈建议,任何引入连续思维标记的方法都应将TRT作为标准诊断工具,与准确率指标一同报告,以确保性能提升的真实性和可解释性。这一工作为VLM的可解释性研究提供了重要工具,也为未来视觉推理模型的设计提供了新的评估标准。