FUSE:通过贝叶斯融合认知不确定性和偶然不确定性来量化视觉语言模型的不确定性
视觉语言模型在机器人等关键领域广泛应用,但输出来自不确定性量化至关重要。FUSE 提出一种概率框架,融合来自数据模糊性的偶然嵌入级不确定性和来自模型响应多样性的认知模型级不确定性,通过贝叶斯机制生成标量不确定性度量,可可靠预测输出正确性,实现最先进的不确定性校准。
视觉语言模型(VLM)在机器人、自动驾驶等安全关键领域日益普及,但模型输出的可靠性评估仍是一项重大挑战。由于VLM通常基于海量多模态数据训练,其预测可能因输入歧义或模型自身局限性而产生不确定性。如果不加以量化,这些不确定性可能导致下游任务(如机器人操作或医学图像分析)出现严重错误。
近期,来自研究团队的Harry Zhang等人提出了一种名为FUSE的概率框架,旨在系统性地量化VLM中的两种互补不确定性来源。第一种是偶然不确定性(aleatoric uncertainty),源于输入数据的视觉-语言歧义,例如一张模糊的图像或模棱两可的文本描述。这种不确定性是数据本身的属性,无法通过增加训练数据来消除。第二种是认知不确定性(epistemic uncertainty),源于模型对同一输入的不同语义响应多样性,反映了模型知识的不完整性。
FUSE的核心创新在于其贝叶斯融合机制。该机制首先通过概率建模从嵌入空间中提取偶然不确定性,然后利用语义响应的多样性估计认知不确定性。通过贝叶斯分析,这两种不确定性被有机结合成一个标量度量。这个度量可以直接用于预测模型输出的正确性,从而为下游应用提供可靠的置信度参考。
研究团队在多个标准基准数据集上进行了实验,包括图像描述和视觉问答任务。结果表明,FUSE在不确定性校准方面显著优于现有方法,达到了最先进(SOTA)性能。校准好的不确定性估计意味着模型能够更准确地说出自己何时可能出错。
该工作已于2026年6月1日提交至arXiv,论文标题为“FUSE: Quantifying Uncertainty in Vision-Language Models by Bayesian Fusing Epistemic and Aleatoric Uncertainty”。代码计划在后续开源。这一进展有望推动VLM在安全关键应用中的实际部署,例如当模型不确定时,系统可以主动寻求人类干预或采取保守策略。