AI News HubLIVE
站內改寫1 分鐘閱讀

Know2Guess:一種汙染感知的多區域基準,用於大語言模型的知識邊界評估

arXiv:2606.26101 新論文提出Know2Guess基準,包含1200個跨域問題,用於區分LLM的知識回答與猜測。評估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型,發現Qwen2.5-3B-Instruct表現最佳,但仍有校準不足等問題。

來源arXiv Computational Linguistics作者: Renwei Meng, Bowen Zhang, Jian Wang, Xican Wang, Haoyi Wu, Xuanyan Qiu, Shengan Yang

近年來,大語言模型(LLM)在各種任務中展現出驚人的能力,但如何可靠地評估它們的真實知識邊界仍然是一個挑戰。傳統的評估方法往往難以區分模型是基於知識進行回答,還是透過猜測或資料汙染來輸出結果。針對這一問題,來自多個機構的研究人員提出了一種名為Know2Guess的汙染感知多區域基準,旨在系統性地測量LLM從可回答知識到應棄權未知的過渡。

Know2Guess基準包含1,200個精心設計的問題,覆蓋五個不同領域:常識、科學、歷史、技術和社會。每個問題都帶有明確的棄權期望標籤,以及汙染風險後設資料,以確保評估的公平性。此外,基準採用雙解析器機制:官方嚴格解析器和歸一化魯棒性解析器,以提高評估的準確性。研究人員對FLAN-T5、Qwen2.5-Instruct(包括3B和7B版本)和Llama-3-Instruct(8B)等多個主流模型進行了評估,採用鎖定回答或棄權的提示、僅回答控制以及提示模板變體等多種設定。

實驗結果表明,該基準並未被通用非回答行為解決。FLAN基線模型在有效棄權方面表現較弱,而經過指令調優的更強模型則顯示出選擇性但不完全的從回答到棄權的過渡。其中,Qwen2.5-3B-Instruct在整體可靠性上取得了最佳成績,但在預期回答區域仍存在困難,校準效能不佳,並且良性專案的拒絕現象依然存在。提示和解析器的魯棒性分析保留了主要的排名和定性結論。

Know2Guess基準因此提供了一個可復現的協議,用於審計可回答性、棄權、拒絕和汙染作為LLM可靠性的不同但相互作用的維度。該資料集已在GitHub上公開,包含了16頁的論文和3張圖表,為後續研究提供了重要資源。這項工作的意義在於,它為開發更可靠的LLM評估方法奠定了基礎,有助於推動模型在真實世界應用中的可信部署。