AI News HubLIVE
站内改写2 分鐘閱讀

度量匹配:一種評估LLM裁判可靠性的子集選擇方法

Metric Match是一種透過選擇代表性樣本進行人工標註來估計LLM裁判可靠性指標的方法。實驗表明,該方法在四種相關性指標和15個資料集上對比隨機選擇的勝率達到0.838,平均估計誤差降低18.7%,標註需求減少32.5%。在醫療案例中,該方法相較於隨機選擇節省了1041.67美元的專業標註費用。此外,該方法還能將任務從可靠性估計擴充套件到可靠性分類,判斷裁判是否超過部署閾值。相關程式碼已開源並提供安裝包。

來源arXiv AI作者: Alyssa Unell, Natalie Dullerud, Naomi Boneh, Meena Jagadeesan, Tatsu Hashimoto, Nigam Shah, Sanmi Koyejo

大型語言模型(LLM)作為自動評估工具在開放式文本生成任務中廣泛應用,旨在替代昂貴的人工評估。然而,LLM裁判(LLM judge)的可靠性高度依賴於它們與人類評分者的一致性,而這種一致性本身需要大量人力進行標註驗證,形成了一個成本悖論:為了節省人工成本而使用LLM裁判,但驗證其可靠性卻又需要人工。針對這一挑戰,來自多所機構的研究人員提出了Metric Match方法,旨在透過有限的標註樣本來精準估計LLM裁判的基於相關性的可靠性指標。

Metric Match的核心策略是從待評估的樣本池中智慧選擇一個子集進行人工標註,使得該子集在合成標籤(由LLM裁判自身生成)上與總體可靠性指標高度匹配。具體而言,該方法透過最佳化選擇過程,確保標註樣本能夠最大程度地反映整體資料分佈,從而用更少的標註量獲得準確的可靠性估計。研究團隊在四種不同的相關性指標(如斯皮爾曼等級相關係數、皮爾遜相關係數等)和15個公開資料集上進行了大規模實驗,結果顯示,與隨機選擇子集相比,Metric Match的勝率(win-rate)達到了0.838,即在大約84%的對比中表現更優。同時,該方法使得平均估計誤差降低了18.7%,並將所需的人工標註量減少了32.5%。這意味著,在保持同等估計精度的前提下,組織可以大幅削減標註成本。

為了量化實際收益,研究團隊還提供了一個成本模型,並在一個醫療領域的案例中進行了演示。在該案例中,使用Metric Match進行專家標註比隨機選擇節省了1041.67美元。這凸顯了方法在專業要求高、標註昂貴場景下的經濟價值。此外,研究將任務從單純的可靠性估計擴充套件至可靠性分類:即判斷一個給定的LLM裁判是否達到預設的部署合格閾值。實驗表明,Metric Match在該分類任務中同樣優於隨機選擇,為實際部署提供了更直接的決策支援。

目前,該專案的所有程式碼已公開發布,並提供了易於安裝的軟體包,方便研究者和開發者直接使用。這項研究為高效、低成本地驗證LLM裁判的可靠性提供了實用工具,有望推動LLM自動評估在實際應用中的信任度提升。