AI News HubLIVE
站内改写2 分钟阅读

度量匹配:一种评估LLM裁判可靠性的子集选择方法

Metric Match是一种通过选择代表性样本进行人工标注来估计LLM裁判可靠性指标的方法。实验表明,该方法在四种相关性指标和15个数据集上对比随机选择的胜率达到0.838,平均估计误差降低18.7%,标注需求减少32.5%。在医疗案例中,该方法相较于随机选择节省了1041.67美元的专业标注费用。此外,该方法还能将任务从可靠性估计扩展到可靠性分类,判断裁判是否超过部署阈值。相关代码已开源并提供安装包。

来源arXiv AI作者: Alyssa Unell, Natalie Dullerud, Naomi Boneh, Meena Jagadeesan, Tatsu Hashimoto, Nigam Shah, Sanmi Koyejo

大型语言模型(LLM)作为自动评估工具在开放式文本生成任务中广泛应用,旨在替代昂贵的人工评估。然而,LLM裁判(LLM judge)的可靠性高度依赖于它们与人类评分者的一致性,而这种一致性本身需要大量人力进行标注验证,形成了一个成本悖论:为了节省人工成本而使用LLM裁判,但验证其可靠性却又需要人工。针对这一挑战,来自多所机构的研究人员提出了Metric Match方法,旨在通过有限的标注样本来精准估计LLM裁判的基于相关性的可靠性指标。

Metric Match的核心策略是从待评估的样本池中智能选择一个子集进行人工标注,使得该子集在合成标签(由LLM裁判自身生成)上与总体可靠性指标高度匹配。具体而言,该方法通过优化选择过程,确保标注样本能够最大程度地反映整体数据分布,从而用更少的标注量获得准确的可靠性估计。研究团队在四种不同的相关性指标(如斯皮尔曼等级相关系数、皮尔逊相关系数等)和15个公开数据集上进行了大规模实验,结果显示,与随机选择子集相比,Metric Match的胜率(win-rate)达到了0.838,即在大约84%的对比中表现更优。同时,该方法使得平均估计误差降低了18.7%,并将所需的人工标注量减少了32.5%。这意味着,在保持同等估计精度的前提下,组织可以大幅削减标注成本。

为了量化实际收益,研究团队还提供了一个成本模型,并在一个医疗领域的案例中进行了演示。在该案例中,使用Metric Match进行专家标注比随机选择节省了1041.67美元。这凸显了方法在专业要求高、标注昂贵场景下的经济价值。此外,研究将任务从单纯的可靠性估计扩展至可靠性分类:即判断一个给定的LLM裁判是否达到预设的部署合格阈值。实验表明,Metric Match在该分类任务中同样优于随机选择,为实际部署提供了更直接的决策支持。

目前,该项目的所有代码已公开发布,并提供了易于安装的软件包,方便研究者和开发者直接使用。这项研究为高效、低成本地验证LLM裁判的可靠性提供了实用工具,有望推动LLM自动评估在实际应用中的信任度提升。