BayesBench:評估多輪證據積累下的大語言模型信念軌跡
大語言模型(LLM)在多輪對話中需要根據新證據更新信念,但現有評估多關注單輪最終答案。本文提出BayesBench基準,通過三個漸進複雜任務(貝葉斯估計、貝葉斯預測、潛在框架貝葉斯預測)評估LLM信念更新與理性貝葉斯推理的匹配程度。在7個LLM(3B-70B)上,規模擴大改善了潛在推理和證據積累,但提升未能可靠遷移到下游預測,揭示了推斷潛在結構與理性更新信念之間的差距。
大語言模型(LLM)通常部署在多輪對話場景中,每一輪對話都為模型提供新的證據,理論上應降低其對環境的不確定性。理性行為要求模型推斷控制環境的未觀測變量,並在證據積累過程中更新信念。然而,大多數評估僅關注模型在單輪格式下的最終回答,忽視了這一過程。針對這一空白,研究人員提出了BayesBench——一套仿真環境套件,用於評估LLM在多輪證據積累場景下信念軌跡與理性貝葉斯推理的匹配程度。
BayesBench包含三個漸進複雜的任務:一是貝葉斯估計,模型需從序列證據中推斷未知參數;二是貝葉斯預測,模型將推斷出的潛在變量信念轉化為結果預測;三是潛在框架貝葉斯預測,觀測數據通過用户角色框架過濾,要求模型對潛在狀態和角色進行聯合推斷。研究團隊在7個參數規模從3B到70B不等的LLM上進行了測試。
實驗結果顯示,隨着模型規模擴大,LLM在潛在推理和證據積累方面表現提升,其信念更新偶爾能匹配貝葉斯後驗。然而,這些改進並未可靠地遷移到下游預測任務中,從而暴露了模型在推斷潛在結構與理性更新信念之間的顯著差距。這一發現對理解LLM在多輪交互中的實際推理能力具有重要意義,也為未來研究提供了方向。研究人員還指出,儘管較大模型在證據積累方面表現更好,但在將這種能力轉化為準確的預測時仍然存在不足,這提示我們需要開發新的訓練方法或架構來彌合這一差距。未來工作可以探索如何通過直接優化信念更新過程或引入更豐富的推理模塊來提升LLM的理性決策能力。