大語言模型不知其所不知:通過跨模型歸因分歧檢測臨牀表格數據中的認知盲點
本研究比較了Qwen 2.5 7B和XGBoost在臨牀預測任務中的表現,通過歸因分歧分析揭示了四個重要發現:LLM的口頭置信度在認識論上是空洞的,存在逆向難度效應,少樣本示例和SHAP特徵證據的結合可顯著提升準確率,且跨模型校準器能有效降低校準誤差。
大語言模型(LLM)越來越多地被應用於結構化臨牀數據,但它們能否識別自身知識在這些任務中的侷限性仍是一個未解之謎。一篇被EIML@ICML 2026接收的論文通過跨模型歸因分歧(Cross-Model Attribution Divergence)的方式研究了這一問題,旨在減少結構化任務中的認知不確定性。研究者將Qwen 2.5 7B與XGBoost在一個預測任務上進行了比較,通過歸因分歧分析得出了四項關鍵發現。
首先,LLM的口頭置信度在認識論上是空洞的:無論準確率是49%還是75.3%,它都輸出近乎恆定的數值(0.856–0.937),實際上追蹤的是提示格式而非預測質量。其次,LLM表現出逆向難度效應:當XGBoost以99%的正確率判斷時,LLM的準確率下降至64.8%;但當XGBoost中等不確定時,LLM的表現與之相當(73.8%對73.1%)。第三,少樣本示例和SHAP導出的特徵證據是正交且超可加的干預措施:它們將歸因分歧得分(ADS)從1.54降至0.38,並在無需訓練的情況下將準確率從49%提升至75.3%。第四,一個利用歸因分歧信號判斷LLM可靠性的跨模型校準器,將預期校準誤差從0.254降至0.080,用患者特定的可靠性估計取代了無信息量的口頭置信度,且無需訪問模型內部或重複推理。
研究者將這些發現框定為LLM在結構化數據上的冷啓動問題,並勾勒出一條通往真正認知自我意識的路徑。該論文的作者包括Akshat Dasula等,於2026年6月17日提交至arXiv(編號2606.19509),並被EIML@ICML 2026接收。該研究為臨牀應用中LLM的可靠部署提供了重要啓示,特別是在需要模型自知之明的場景下。