AA-Briefcase:前沿知识工作评估基准
AA-Briefcase是Artificial Analysis推出的新基准,用于测试AI模型在复杂多周知识工作项目中的表现。该基准结合了检查表与成对评分,评估任务正确性、分析质量和展示质量。Claude Fable 5领先,但成本高昂;开源模型GLM-5.2在性价比上表现出色。
AA-Briefcase是Artificial Analysis推出的一项全新基准,旨在评估AI模型在真实知识工作场景中的智能体能力。该基准模拟多周知识工作项目,每个项目包含大量相互关联的任务和数千份输入源文件。AA-Briefcase结合了检查表评分和成对评分,分别评估任务的成功执行、分析质量和展示质量,从而全面衡量知识工作中的智能体能力。
在最新排行榜中,Claude Fable 5在AA-Briefcase Elo综合指标上取得了最高分,该指标整合了检查表通过率、分析质量Elo和展示Elo。紧随其后的是Claude Opus 4.8(max)和GLM-5.2(max),而GPT-5.5(xhigh)位列第四。值得注意的是,GLM-5.2(max)是开源模型中的明显领先者,并在智能体能力与成本之间提供了极具吸引力的平衡。
AA-Briefcase的设计聚焦于真实世界的复杂性。其项目场景逼真且时间跨度长,任务按周构建,共享机构背景,并要求生成公司级别的交付物,如财务模型、董事会演示和设计原型。基准包含近2000份源文件,其中包括超过3500封电子邮件和25000条Slack消息,这些源文件碎片化且充满矛盾,考验模型处理模糊信息的能力。所有91个任务均保持私有,以确保评估的完整性。
在成本方面,不同模型的每任务成本差异超过800倍。Claude Fable 5虽然性能领先,但每任务平均成本超过31美元,而DeepSeek V4 Flash(Max)仅需约0.04美元。性价比最强的选项是开源模型,如GLM-5.2(max)和DeepSeek V4 Pro(max),其中GLM-5.2(max)以不到Claude Opus 4.8(max)四分之一成本取得了仅低约90 Elo的成绩。
AA-Briefcase还揭示了关键的洞察。客观检查表显示,即使在领先模型上,所有检查点全部通过的任务仅有3%。在91个任务中,有31个任务没有任何模型得分超过50%。模型能力层级不同,失败模式也有所差异:能力较弱的模型常因执行失败而表现不佳,而更强的模型则更容易遗漏隐藏在源文件中的要求。此外,任务难度随所需输入文件数量增加而上升,但顶尖模型在高文件需求场景下的退化幅度较小。在展示质量方面,表现最好的模型在提交前会进行多次视觉检查,而得分较低的模型很少进行此类检查。
总的来说,AA-Briefcase提供了一个衡量模型在复杂知识工作中实际能力的全面视角,其发现对模型选择、成本优化和能力提升具有重要指导意义。