AI News HubLIVE
站内改写1 分钟阅读

数据与评估闭环:提升模型能力

一种名为'能力切片'的新方法,通过将评估样本分组(背景条件、任务类型、求解操作和输出约束),填补了大语言模型预训练中评估与数据之间的鸿沟,使从基准测试失败到数据干预的推理变得系统化。两个案例研究验证了其有效性:一是诊断出BBH下降源于掩码EOS损失而非推理能力减弱,二是通过针对性采样将AIME2025/2026的Pass@128从6.67/0.00提升至26.67。

来源arXiv AI作者: Zhixuan Li, Jiangan Yuan, Han Xu

在大语言模型(LLM)的预训练中,模型能力是核心变量,但无法直接观测。数据塑造能力,而评估只能事后揭示能力,将样本、提示、解码和评分规则压缩成一个有噪声的分数。实际操作中,优化是反向进行的:先观察到失败,然后工程师必须推断出语料库的修正方法。然而,评估和数据使用不同的术语——基准名称和逐样本正确性 vs. 数据来源、领域和质量标签——因此这种推断往往依赖于直觉而非系统方法。

为了解决这一难题,研究人员提出了“能力切片”(capability slice)的概念。能力切片是一组评估样本,它们共享背景条件、任务类型、求解操作和输出约束。它既足够精细以定位单一弱点,又足够稳定以进行聚合,避免了基准名称过于粗糙或单个样本过于嘈杂的问题。基于这个单元,研究团队构建了一个评估分类法、一个非指令数据分类法以及映射规则,形成了一个闭环,能够将基准级别的失败转化为有针对性的、可测试的数据干预。

该闭环在两个方向相反的案例研究中进行了测试。第一个案例中,闭环排除了数据问题:继续预训练导致BBH基准下降46.82%,但诊断发现这是由于一个掩码的<EOS>损失而非推理能力减弱;恢复该损失后,BBH回升至66.44,超过了原始检查点,且未改变数据。第二个案例中,闭环确认了数据问题:持续的数学推理弱点被分解为特定求解操作的失败组合,基于此构建的弱点定向采样程序将AIME2025/AIME2026的Pass@128从6.67/0.00分别提升至26.67。

相同的未修改闭环在两个案例中得出了相反的但正确的结论,这表明从评估到数据的推断可以变得常规、可审计且可通过实验验证,而不再依赖于直觉。这一方法为LLM预训练优化提供了一种系统化的工具,有望大幅提高模型能力提升的效率。