2026-06-18站内改写2 分钟阅读更新: 2026-06-19

AA-Briefcase：前沿知识工作评估基准

AA-Briefcase是Artificial Analysis推出的新基准，用于测试AI模型在复杂多周知识工作项目中的表现。该基准结合了检查表与成对评分，评估任务正确性、分析质量和展示质量。Claude Fable 5领先，但成本高昂；开源模型GLM-5.2在性价比上表现出色。

来源Hacker News AI作者: declanjackson

AA-Briefcase是Artificial Analysis推出的一项全新基准，旨在评估AI模型在真实知识工作场景中的智能体能力。该基准模拟多周知识工作项目，每个项目包含大量相互关联的任务和数千份输入源文件。AA-Briefcase结合了检查表评分和成对评分，分别评估任务的成功执行、分析质量和展示质量，从而全面衡量知识工作中的智能体能力。

在最新排行榜中，Claude Fable 5在AA-Briefcase Elo综合指标上取得了最高分，该指标整合了检查表通过率、分析质量Elo和展示Elo。紧随其后的是Claude Opus 4.8（max）和GLM-5.2（max），而GPT-5.5（xhigh）位列第四。值得注意的是，GLM-5.2（max）是开源模型中的明显领先者，并在智能体能力与成本之间提供了极具吸引力的平衡。

AA-Briefcase的设计聚焦于真实世界的复杂性。其项目场景逼真且时间跨度长，任务按周构建，共享机构背景，并要求生成公司级别的交付物，如财务模型、董事会演示和设计原型。基准包含近2000份源文件，其中包括超过3500封电子邮件和25000条Slack消息，这些源文件碎片化且充满矛盾，考验模型处理模糊信息的能力。所有91个任务均保持私有，以确保评估的完整性。

在成本方面，不同模型的每任务成本差异超过800倍。Claude Fable 5虽然性能领先，但每任务平均成本超过31美元，而DeepSeek V4 Flash（Max）仅需约0.04美元。性价比最强的选项是开源模型，如GLM-5.2（max）和DeepSeek V4 Pro（max），其中GLM-5.2（max）以不到Claude Opus 4.8（max）四分之一成本取得了仅低约90 Elo的成绩。

AA-Briefcase还揭示了关键的洞察。客观检查表显示，即使在领先模型上，所有检查点全部通过的任务仅有3%。在91个任务中，有31个任务没有任何模型得分超过50%。模型能力层级不同，失败模式也有所差异：能力较弱的模型常因执行失败而表现不佳，而更强的模型则更容易遗漏隐藏在源文件中的要求。此外，任务难度随所需输入文件数量增加而上升，但顶尖模型在高文件需求场景下的退化幅度较小。在展示质量方面，表现最好的模型在提交前会进行多次视觉检查，而得分较低的模型很少进行此类检查。

总的来说，AA-Briefcase提供了一个衡量模型在复杂知识工作中实际能力的全面视角，其发现对模型选择、成本优化和能力提升具有重要指导意义。