评估盲点:大型语言模型基准覆盖的体视学理论
一篇新论文提出了评估LLM基准覆盖的体视学理论,发现基准套件的有效维度导致巨大盲点,远超分数差异,并提出了最小基准集选择算法和解决了Gardner问题。
一篇由Jason Z Wang撰写的论文《评估盲点:大型语言模型基准覆盖的体视学理论》提出了一个用于衡量LLM基准覆盖的体视学理论框架。该理论指出,对于任何具有有效维度d_eff的基准套件,与相同分数一致的两个凸能力配置文件之间的可见豪斯多夫距离受限于一个与m^{-¹/(d_eff-1)}成正比的上界。
通过实证分析,研究评估了三个独立排行榜(Open LLM v2、扩展的12基准套件和LiveBench),发现它们的竞争前沿有效维度均在2.86到4.80之间。这些基准套件的结构性盲点比观察到的亚军分数差距大两个数量级,并且比统计噪声高52到127倍。这意味着当前的评估方法可能严重低估了模型能力的差异。
在卡方投影模型下,各向同性先验是最乐观的情况。通过六种隐藏能力先验和四种环境维度的模拟,排名前两位模型的半分割交换率保持在0.38到0.49之间。在500次随机可见/保留分割试验中,92%的试验改变了第一名排名,平均有2.83个前五名模型发生变化,这表明基准选择的微小变化可能导致排名的剧烈波动。
为了减少这种不稳定性,研究采用了一个带有Nemhauser(1-1/e)保证的子模贪心算法,找到了由4个基准组成的稳定核心集。仅需7个基准即可达到90%的覆盖,并且训练好的子集在不同季度间转移时保持了93%到97%的保留率。该算法通过12个内部基准和27个Chatbot Arena类别的反事实验证,显示特征结构能够预测哪些评估是不可替代的(移除干扰的rho=-0.69,p=0.013),以及哪些外部评估带来了新信息(rho=+0.38)。
作为第二个独立的理论贡献,论文解决了Gardner问题1.5(1995),针对C^2支持函数,通过S^(D-1)上的最优恢复理论,确立了在一般维度下的极小极大率Theta(R/(kappa m^(2/(D-1))))。这一结果对于理解高维空间中的函数恢复具有重要意义。
该研究为LLM评估提供了理论基础,强调了当前基准方法的局限性,并提出了更稳定、高效的评估策略。