FUSE:透過貝葉斯融合認知不確定性和偶然不確定性來量化視覺語言模型的不確定性
視覺語言模型在機器人等關鍵領域廣泛應用,但輸出來自不確定性量化至關重要。FUSE 提出一種機率框架,融合來自資料模糊性的偶然嵌入級不確定性和來自模型響應多樣性的認知模型級不確定性,透過貝葉斯機制生成標量不確定性度量,可可靠預測輸出正確性,實現最先進的不確定性校準。
視覺語言模型(VLM)在機器人、自動駕駛等安全關鍵領域日益普及,但模型輸出的可靠性評估仍是一項重大挑戰。由於VLM通常基於海量多模態資料訓練,其預測可能因輸入歧義或模型自身侷限性而產生不確定性。如果不加以量化,這些不確定性可能導致下游任務(如機器人操作或醫學影像分析)出現嚴重錯誤。
近期,來自研究團隊的Harry Zhang等人提出了一種名為FUSE的機率框架,旨在系統性地量化VLM中的兩種互補不確定性來源。第一種是偶然不確定性(aleatoric uncertainty),源於輸入資料的視覺-語言歧義,例如一張模糊的影像或模稜兩可的文本描述。這種不確定性是資料本身的屬性,無法透過增加訓練資料來消除。第二種是認知不確定性(epistemic uncertainty),源於模型對同一輸入的不同語義響應多樣性,反映了模型知識的不完整性。
FUSE的核心創新在於其貝葉斯融合機制。該機制首先透過機率建模從嵌入空間中提取偶然不確定性,然後利用語義響應的多樣性估計認知不確定性。透過貝葉斯分析,這兩種不確定性被有機結合成一個標量度量。這個度量可以直接用於預測模型輸出的正確性,從而為下游應用提供可靠的置信度參考。
研究團隊在多個標準基準資料集上進行了實驗,包括影像描述和視覺問答任務。結果表明,FUSE在不確定性校準方面顯著優於現有方法,達到了最先進(SOTA)效能。校準好的不確定性估計意味著模型能夠更準確地說出自己何時可能出錯。
該工作已於2026年6月1日提交至arXiv,論文標題為“FUSE: Quantifying Uncertainty in Vision-Language Models by Bayesian Fusing Epistemic and Aleatoric Uncertainty”。程式碼計劃在後續開源。這一進展有望推動VLM在安全關鍵應用中的實際部署,例如當模型不確定時,系統可以主動尋求人類干預或採取保守策略。