2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 16:09 UTC+8

面向低延迟视觉-语言模型的自我中心视觉理解中的双重正确预测

本文研究了在自我中心视觉理解中，如何通过权重剪枝实现低延迟视觉-语言模型，同时保证预测的准确性和证据基础（双重正确）。现有剪枝方法常保持证据定位但损害准确性，作者提出理由告知剪枝策略，在自我中心视频数据集上达到了最高准确率和双重正确预测。

来源arXiv Robotics作者: Qitong Wang, Fan Du, Pranav Maneriker, Jihui Jin, Christopher Rasmussen

近年来，以自我为中心的视觉理解（egocentric visual understanding）中视觉语言模型（VLM）的快速发展，使得人机协作任务中的低延迟推理变得至关重要。权重剪枝技术通过缩小模型大小并减少计算量，为机载处理和实时交互机器人提供了高效解决方案。然而，安全的人机交互要求剪枝策略不仅要保持预测准确性，还要确保输出有坚实的证据基础，即“双重正确”预测。

来自研究团队（包括Qitong Wang等四位作者）的论文通过双重正确预测的视角重新审视了VLM的剪枝问题。实验结果显示，现有的剪枝方法通常能够保留正确的证据定位，但却显著削弱了模型对最终答案的预测能力。这种证据与决策之间的脱节可能导致在关键任务中产生不可靠的结果。为了解决这一问题，研究提出了一种基于理由的剪枝策略（rationale-informed pruning）。该方法通过强化证据与决策之间的对齐，在剪枝过程中优先保留那些对最终预测贡献最大的证据区域，从而在保持模型小型化的同时，确保预测的准确性和可解释性。

在多个自我中心视频数据集上的基准测试表明，所提出的策略不仅在所有基线方法中取得了最高的预测准确率，而且在双重正确指标上（同时满足准确性和证据合理性）也显著超越现有技术。这项工作为开发既高效又可靠的VLM提供了新思路，并强调了在机器人协作和具身智能领域将透明度、可审计性和安全性作为设计要点的必要性。

该论文已于2026年6月23日提交至arXiv（编号2606.25160），并被2026年IEEE/RSJ国际智能机器人与系统会议（IROS 2026）接收，展示了学术界对低延迟、可信赖视觉语言模型的持续关注。未来工作将进一步探索在更复杂的动态环境中实现双重正确预测的可行性。