JobBench:将代理工作与人类意愿对齐
JobBench是一个新的AI代理基准测试,它评估代理在专家认为最值得委派的工作流程上的表现,旨在强调增强而非替代人类。
文章情报
要点
- 涵盖35个职业的130项任务
- 每项任务平均35.6个二进制评分标准
- 最强模型Claude Opus 4.7仅得45.9%
- 目标是将劳动力市场影响从替代转向增强
为什么重要
这条新闻值得关注,因为涵盖35个职业的130项任务。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
2026年5月25日,由Yuetai Li等24位研究者共同提交的论文《JobBench: Aligning Agent Work With Human Will》在arXiv上正式发布。该论文提出了一种全新的基准测试框架——JobBench,用于评估AI代理在真实职业工作流程中的表现。与当前主流基准测试主要基于经济价值、讲述替代人类故事不同,JobBench聚焦于专家认定的高优先级委派工作流,其根本目标是增强人类而非以GDP价值取代人类。
JobBench覆盖了35个不同的职业领域,包括法律、医疗、工程、教育、金融等,共计130项具体的代理任务。每项任务都被精心设计为一个包含多种异构参考文件的工作空间,要求AI代理在这种杂乱无章的真实专业信息流中进行推理、决策和操作。输出结果通过基于事实的评估链进行评分,每项任务平均包含35.6个二进制评分标准,确保评估的客观性和全面性。研究团队对36个当前主流AI模型进行了全面评估,结果显示,即使是最强的模型——在Claude Code环境下的Claude Opus 4.7,也仅达到了45.9%的得分。这一结果凸显了当前AI代理在处理复杂职业任务方面仍有巨大的提升空间。
通过JobBench,研究者希望引导整个AI社区将劳动力市场的关注点从替代转向增强,即构建那些能够执行人类真正愿意委派的代理系统,而不仅仅是追求经济价值的最大化。这一转变有望推动AI代理更好地服务于人类需求,实现真正的人机协作。该基准测试的完整代码和数据集已开源,供社区进一步研究和开发。