2026-06-08 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

UnpredictaBench：評估大語言模型分佈隨機性的基準

UnpredictaBench是一個新的基準測試，用於評估大型語言模型（LLM）捕捉真實底層分佈的能力。隨著LLM越來越多地被用作其他實體的替代品（例如，在經濟模擬中替代人類），許多模型傾向於收斂到單一合理答案，無法捕捉真實系統的不可預測性。該基準包括448個問題，涉及典型統計分佈、隨機程式誘導的分佈以及描述隨機過程的自然語言場景。採用KS@N指標，透過Kolmogorov-Smirnov檢驗量化模型輸出近似黑盒目標分佈的程度。實驗表明，模型表現差異很大，KS@100得分從接近0到超過20%，沒有模型能超過40%。新增推理能力可以略微提高得分，但無法根本解決。UnpredictaBench表明，即使是簡單的分佈模擬仍然具有挑戰性，是使用LLM作為複雜系統替代品的必要第一步。

來源arXiv Computational Linguistics作者: Amirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

隨著大型語言模型（LLM）在經濟學模擬、社會系統建模等領域的應用日益廣泛，這些模型被要求承擔起模擬人類或其他實體行為的重任。然而，一個根本性的問題逐漸凸顯：LLM往往傾向於輸出最可能的答案，導致模型生成的樣本缺乏真實世界中的不可預測性和多樣性。儘管已有研究致力於提升模型輸出的多樣性，但發現這僅僅停留在“生成不同輸出”的層面，遠未達到“校準到目標分佈”的要求。為此，研究人員提出了UnpredictaBench，一個專門評估LLM分佈隨機性的基準測試。

UnpredictaBench由448個精心設計的問題組成，涵蓋三大類別：典型統計分佈（如正態分佈、指數分佈）、隨機程式誘導的分佈（即由隨機演算法產生的分佈），以及描述隨機過程的自然語言場景。這些問題的設定旨在模擬從底層真實分佈中取樣的任務，而非簡單的答案選擇。評估的核心指標是KS@N，該指標基於Kolmogorov-Smirnov統計檢驗，量化模型生成的大小為N的樣本與真實樣本之間的分佈差異。具體而言，KS@N計算的是當顯著性水平為0.05時，我們無法拒絕模型樣本與真實樣本來自同一分佈的原假設的比例。N越大，難度越高，因此KS@100被用作標準指標。

研究團隊對包括開源和閉源在內的多種先進模型進行了測試。結果顯示，模型在分佈取樣能力上存在巨大差異。例如，在KS@100指標上，頂尖模型得分也僅為20%左右，而最差的模型幾乎為0。更值得注意的是，沒有任何模型能夠突破40%的關口，這揭示出在分佈取樣這一能力上存在顯著的提升空間。嘗試在推理過程中加入鏈式思維（Chain-of-Thought）等推理技巧後，模型得分略有提高，但效果有限，未能從根本上解決校準問題。

UnpredictaBench的釋出提醒我們：即使是最簡單的分佈模擬任務，當前的LLM也遠未達到理想水平。這項工作被認為是使用LLM替代複雜系統的必要第一步，為未來的模型改進指明瞭方向。研究團隊公開了所有程式碼和資料，鼓勵更多研究者共同推動這一領域的發展。