2026-05-22站内改写2 分钟阅读更新: 2026-06-12

消融验证：视觉语言模型真的在使用连续思维标记吗？

本文提出“消融验证”诊断原则及其具体实现——标记替换测试（TRT），用于检验视觉语言模型（VLM）是否真正利用连续潜在标记进行推理。实验表明，即使标记内容被破坏或替换，VLM仍保留大部分性能提升，准确率提升并不能证明模型使用了这些标记进行推理。

来源arXiv Computer Vision作者: Tianyi Zhang, Mahtab Bigverdi, Ranjay Krishna

视觉语言模型（VLM）近年来在架构上不断创新，其中一个显著趋势是引入连续或潜在的非文本标记（即“思维标记”），旨在让模型具备类似人类的“视觉思考”能力。这类标记被嵌入到模型的中间层，期望能够辅助模型进行更复杂的推理。然而，一个关键问题始终存在：这些标记是否真的被模型用于推理，还是仅仅因为其存在而带来了性能提升？为此，来自多所机构的研究人员提出了一种新的诊断原则——消融验证（Ablate-to-Validate），并基于此开发了标记替换测试（Token Replacement Test，TRT），以系统性地检验VLM对连续思维标记的实际利用情况。

TRT的核心思想非常直接：在保持提示、图像、标记预算和解码方式完全不变的前提下，将模型生成的中间潜在标记替换为多种替代内容，包括零向量、随机向量、第一个重复向量或最优替代向量。通过比较替换前后的性能变化，可以判断性能提升究竟依赖于标记的具体内容，还是仅仅依赖于标记的存在本身。研究团队在相对深度推理这一受控任务上进行了实验，使用LLaVA-13B和Qwen2.5-VL-3B两个模型，并训练它们预测和使用连续或离散的深度跨度。这些实验跨越了多种冻结编码器（如SigLIP2、CLIP、DINOv2）和不同的标记预算设置。此外，TRT还被应用于三个现有的视觉思维系统——Mirage、Mull-Tokens和CoVT，并在BLINK、VSP和CV-Bench等标准基准上进行了评估。

实验结果令人深思：在所有测试设置中，即使标记的内容被完全破坏或替换为随机噪声，VLM仍然保留了大部分的性能提升。这意味着，准确率的提高并不能作为模型真正使用这些标记进行推理的证据；相反，这种提升可能来源于其他混淆因素，例如增加的上下文长度、特殊标记的锚定效应或训练时的正则化作用。研究揭示了“拥有潜在通道”与“将其用作信息瓶颈”之间存在持续且显著的差距。基于这些发现，作者强烈建议，任何引入连续思维标记的方法都应将TRT作为标准诊断工具，与准确率指标一同报告，以确保性能提升的真实性和可解释性。这一工作为VLM的可解释性研究提供了重要工具，也为未来视觉推理模型的设计提供了新的评估标准。