2026-06-18站内改写2 分鐘閱讀更新: 2026-06-19

AA-Briefcase：前沿知識工作評估基準

AA-Briefcase是Artificial Analysis推出的新基準，用於測試AI模型在複雜多周知識工作項目中的表現。該基準結合了檢查表與成對評分，評估任務正確性、分析質量和展示質量。Claude Fable 5領先，但成本高昂；開源模型GLM-5.2在性價比上表現出色。

來源Hacker News AI作者: declanjackson

AA-Briefcase是Artificial Analysis推出的一項全新基準，旨在評估AI模型在真實知識工作場景中的智能體能力。該基準模擬多周知識工作項目，每個項目包含大量相互關聯的任務和數千份輸入源文件。AA-Briefcase結合了檢查表評分和成對評分，分別評估任務的成功執行、分析質量和展示質量，從而全面衡量知識工作中的智能體能力。

在最新排行榜中，Claude Fable 5在AA-Briefcase Elo綜合指標上取得了最高分，該指標整合了檢查表通過率、分析質量Elo和展示Elo。緊隨其後的是Claude Opus 4.8（max）和GLM-5.2（max），而GPT-5.5（xhigh）位列第四。值得注意的是，GLM-5.2（max）是開源模型中的明顯領先者，並在智能體能力與成本之間提供了極具吸引力的平衡。

AA-Briefcase的設計聚焦於真實世界的複雜性。其項目場景逼真且時間跨度長，任務按周構建，共享機構背景，並要求生成公司級別的交付物，如財務模型、董事會演示和設計原型。基準包含近2000份源文件，其中包括超過3500封電子郵件和25000條Slack消息，這些源文件碎片化且充滿矛盾，考驗模型處理模糊信息的能力。所有91個任務均保持私有，以確保評估的完整性。

在成本方面，不同模型的每任務成本差異超過800倍。Claude Fable 5雖然性能領先，但每任務平均成本超過31美元，而DeepSeek V4 Flash（Max）僅需約0.04美元。性價比最強的選項是開源模型，如GLM-5.2（max）和DeepSeek V4 Pro（max），其中GLM-5.2（max）以不到Claude Opus 4.8（max）四分之一成本取得了僅低約90 Elo的成績。

AA-Briefcase還揭示了關鍵的洞察。客觀檢查表顯示，即使在領先模型上，所有檢查點全部通過的任務僅有3%。在91個任務中，有31個任務沒有任何模型得分超過50%。模型能力層級不同，失敗模式也有所差異：能力較弱的模型常因執行失敗而表現不佳，而更強的模型則更容易遺漏隱藏在源文件中的要求。此外，任務難度隨所需輸入文件數量增加而上升，但頂尖模型在高文件需求場景下的退化幅度較小。在展示質量方面，表現最好的模型在提交前會進行多次視覺檢查，而得分較低的模型很少進行此類檢查。

總的來説，AA-Briefcase提供了一個衡量模型在複雜知識工作中實際能力的全面視角，其發現對模型選擇、成本優化和能力提升具有重要指導意義。