AI News HubLIVE
站内改写1 分鐘閱讀

UnpredictaBench:評估大語言模型分佈隨機性的基準

UnpredictaBench是一個新的基準測試,用於評估大型語言模型(LLM)捕捉真實底層分佈的能力。隨著LLM越來越多地被用作其他實體的替代品(例如,在經濟模擬中替代人類),許多模型傾向於收斂到單一合理答案,無法捕捉真實系統的不可預測性。該基準包括448個問題,涉及典型統計分佈、隨機程式誘導的分佈以及描述隨機過程的自然語言場景。採用KS@N指標,透過Kolmogorov-Smirnov檢驗量化模型輸出近似黑盒目標分佈的程度。實驗表明,模型表現差異很大,KS@100得分從接近0到超過20%,沒有模型能超過40%。新增推理能力可以略微提高得分,但無法根本解決。UnpredictaBench表明,即使是簡單的分佈模擬仍然具有挑戰性,是使用LLM作為複雜系統替代品的必要第一步。

來源arXiv Computational Linguistics作者: Amirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

隨著大型語言模型(LLM)在經濟學模擬、社會系統建模等領域的應用日益廣泛,這些模型被要求承擔起模擬人類或其他實體行為的重任。然而,一個根本性的問題逐漸凸顯:LLM往往傾向於輸出最可能的答案,導致模型生成的樣本缺乏真實世界中的不可預測性和多樣性。儘管已有研究致力於提升模型輸出的多樣性,但發現這僅僅停留在“生成不同輸出”的層面,遠未達到“校準到目標分佈”的要求。為此,研究人員提出了UnpredictaBench,一個專門評估LLM分佈隨機性的基準測試。

UnpredictaBench由448個精心設計的問題組成,涵蓋三大類別:典型統計分佈(如正態分佈、指數分佈)、隨機程式誘導的分佈(即由隨機演算法產生的分佈),以及描述隨機過程的自然語言場景。這些問題的設定旨在模擬從底層真實分佈中取樣的任務,而非簡單的答案選擇。評估的核心指標是KS@N,該指標基於Kolmogorov-Smirnov統計檢驗,量化模型生成的大小為N的樣本與真實樣本之間的分佈差異。具體而言,KS@N計算的是當顯著性水平為0.05時,我們無法拒絕模型樣本與真實樣本來自同一分佈的原假設的比例。N越大,難度越高,因此KS@100被用作標準指標。

研究團隊對包括開源和閉源在內的多種先進模型進行了測試。結果顯示,模型在分佈取樣能力上存在巨大差異。例如,在KS@100指標上,頂尖模型得分也僅為20%左右,而最差的模型幾乎為0。更值得注意的是,沒有任何模型能夠突破40%的關口,這揭示出在分佈取樣這一能力上存在顯著的提升空間。嘗試在推理過程中加入鏈式思維(Chain-of-Thought)等推理技巧後,模型得分略有提高,但效果有限,未能從根本上解決校準問題。

UnpredictaBench的釋出提醒我們:即使是最簡單的分佈模擬任務,當前的LLM也遠未達到理想水平。這項工作被認為是使用LLM替代複雜系統的必要第一步,為未來的模型改進指明瞭方向。研究團隊公開了所有程式碼和資料,鼓勵更多研究者共同推動這一領域的發展。