2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 15:51 UTC+8

数据与评估闭环：提升模型能力

一种名为'能力切片'的新方法，通过将评估样本分组（背景条件、任务类型、求解操作和输出约束），填补了大语言模型预训练中评估与数据之间的鸿沟，使从基准测试失败到数据干预的推理变得系统化。两个案例研究验证了其有效性：一是诊断出BBH下降源于掩码EOS损失而非推理能力减弱，二是通过针对性采样将AIME2025/2026的Pass@128从6.67/0.00提升至26.67。

来源arXiv AI作者: Zhixuan Li, Jiangan Yuan, Han Xu

在大语言模型（LLM）的预训练中，模型能力是核心变量，但无法直接观测。数据塑造能力，而评估只能事后揭示能力，将样本、提示、解码和评分规则压缩成一个有噪声的分数。实际操作中，优化是反向进行的：先观察到失败，然后工程师必须推断出语料库的修正方法。然而，评估和数据使用不同的术语——基准名称和逐样本正确性 vs. 数据来源、领域和质量标签——因此这种推断往往依赖于直觉而非系统方法。

为了解决这一难题，研究人员提出了“能力切片”（capability slice）的概念。能力切片是一组评估样本，它们共享背景条件、任务类型、求解操作和输出约束。它既足够精细以定位单一弱点，又足够稳定以进行聚合，避免了基准名称过于粗糙或单个样本过于嘈杂的问题。基于这个单元，研究团队构建了一个评估分类法、一个非指令数据分类法以及映射规则，形成了一个闭环，能够将基准级别的失败转化为有针对性的、可测试的数据干预。

该闭环在两个方向相反的案例研究中进行了测试。第一个案例中，闭环排除了数据问题：继续预训练导致BBH基准下降46.82%，但诊断发现这是由于一个掩码的<EOS>损失而非推理能力减弱；恢复该损失后，BBH回升至66.44，超过了原始检查点，且未改变数据。第二个案例中，闭环确认了数据问题：持续的数学推理弱点被分解为特定求解操作的失败组合，基于此构建的弱点定向采样程序将AIME2025/AIME2026的Pass@128从6.67/0.00分别提升至26.67。

相同的未修改闭环在两个案例中得出了相反的但正确的结论，这表明从评估到数据的推断可以变得常规、可审计且可通过实验验证，而不再依赖于直觉。这一方法为LLM预训练优化提供了一种系统化的工具，有望大幅提高模型能力提升的效率。