2026-06-08 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

語言模型是如何失敗的：承諾性失敗與持續性推理失敗的詞元級特徵

該研究通過詞元級不確定性信號識別語言模型推理失敗的兩種不同過程：承諾性失敗（模型早期鎖定錯誤路徑）和持續性不確定（不確定性持續累積）。框架在23個模型-數據集配置中驗證，20例通過可證偽預測，並展示了對自一致性方法的改進。

來源arXiv Computational Linguistics作者: Tanvi Thoria, Kiana Jafari, Marc R. Schlichting, Mykel J. Kochenderfer

arXiv預印本2606.06635號論文於2026年6月4日提交，作者包括Tanvi Thoria等四位研究者。該研究提出了一種基於詞元級不確定性信號的新框架，用於識別和分類大型語言模型在推理過程中出現的失敗模式。研究人員發現，語言模型的推理失敗並非單一現象，而是可以通過兩種不同的過程來區分：承諾性失敗和持續性不確定。

承諾性失敗指的是模型在推理的早期階段就鎖定了一條錯誤的推理路徑，其核心診斷標誌是所謂的“承諾點”。一旦超過這個承諾點，繼續生成或考慮更多的詞元不僅無助於檢測失敗，反而會干擾檢測的準確性。這意味着，對於這類失敗，最優的檢測策略是在承諾點之前就進行干預，而不是依賴後續的推理內容。

相比之下，持續性不確定則表現為模型在整個推理過程中始終保留着較高的不確定性，這種不確定性隨着推理的進行而累積。因此，對於持續性不確定的情況，只有完整的推理軌跡才能最好地區分一次推理是成功還是失敗。模型在推理的每一步都表現出不自信，需要觀察其最終輸出才能做出可靠判斷。

該框架在23種不同的模型與數據集組合上進行了驗證，涵蓋了多種主流的大型語言模型架構和推理任務。其可證偽的預測在20個案例中成立，顯著高於隨機水平，證明了該分類方法的有效性和泛化能力。研究還發現，這兩種失敗模式在不同模型和數據集之間表現出一致的行為模式，表明它們可能源於模型推理的固有機制。

此外，研究展示了該失敗模式框架對自一致性方法的直接影響。自一致性是一種常用的提高LLM推理可靠性的技術，它通過多次採樣並選擇最一致的答案來降低錯誤率。本研究表明，在承諾性失敗的情況下，由於模型已經鎖定錯誤路徑，多次採樣往往得到相同的錯誤答案，因此自一致性可能無效；而在持續性不確定的情況下，不確定性信號可以補充自一致性，幫助篩選更可靠的輸出。該框架能夠識別何時不確定性信號可以作為自一致性的補充，以及何時可以有意跳過自一致性步驟以節省計算資源。

這些結果為理解何時能夠檢測到大型語言模型的推理失敗以及如何相應地調整檢測策略提供了重要的基礎。未來，該方法有望集成到LLM的推理監控系統中，幫助開發者和用户更好地識別不可靠的推理輸出，從而提高AI系統的安全性和可靠性。論文主題涉及計算與語言以及人工智能領域，目前可在arXiv上獲取全文。