AA-Briefcase:前沿知識工作評估基準
AA-Briefcase是Artificial Analysis推出的新基準,用於測試AI模型在複雜多周知識工作項目中的表現。該基準結合了檢查表與成對評分,評估任務正確性、分析質量和展示質量。Claude Fable 5領先,但成本高昂;開源模型GLM-5.2在性價比上表現出色。
AA-Briefcase是Artificial Analysis推出的一項全新基準,旨在評估AI模型在真實知識工作場景中的智能體能力。該基準模擬多周知識工作項目,每個項目包含大量相互關聯的任務和數千份輸入源文件。AA-Briefcase結合了檢查表評分和成對評分,分別評估任務的成功執行、分析質量和展示質量,從而全面衡量知識工作中的智能體能力。
在最新排行榜中,Claude Fable 5在AA-Briefcase Elo綜合指標上取得了最高分,該指標整合了檢查表通過率、分析質量Elo和展示Elo。緊隨其後的是Claude Opus 4.8(max)和GLM-5.2(max),而GPT-5.5(xhigh)位列第四。值得注意的是,GLM-5.2(max)是開源模型中的明顯領先者,並在智能體能力與成本之間提供了極具吸引力的平衡。
AA-Briefcase的設計聚焦於真實世界的複雜性。其項目場景逼真且時間跨度長,任務按周構建,共享機構背景,並要求生成公司級別的交付物,如財務模型、董事會演示和設計原型。基準包含近2000份源文件,其中包括超過3500封電子郵件和25000條Slack消息,這些源文件碎片化且充滿矛盾,考驗模型處理模糊信息的能力。所有91個任務均保持私有,以確保評估的完整性。
在成本方面,不同模型的每任務成本差異超過800倍。Claude Fable 5雖然性能領先,但每任務平均成本超過31美元,而DeepSeek V4 Flash(Max)僅需約0.04美元。性價比最強的選項是開源模型,如GLM-5.2(max)和DeepSeek V4 Pro(max),其中GLM-5.2(max)以不到Claude Opus 4.8(max)四分之一成本取得了僅低約90 Elo的成績。
AA-Briefcase還揭示了關鍵的洞察。客觀檢查表顯示,即使在領先模型上,所有檢查點全部通過的任務僅有3%。在91個任務中,有31個任務沒有任何模型得分超過50%。模型能力層級不同,失敗模式也有所差異:能力較弱的模型常因執行失敗而表現不佳,而更強的模型則更容易遺漏隱藏在源文件中的要求。此外,任務難度隨所需輸入文件數量增加而上升,但頂尖模型在高文件需求場景下的退化幅度較小。在展示質量方面,表現最好的模型在提交前會進行多次視覺檢查,而得分較低的模型很少進行此類檢查。
總的來説,AA-Briefcase提供了一個衡量模型在複雜知識工作中實際能力的全面視角,其發現對模型選擇、成本優化和能力提升具有重要指導意義。