2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

JobBench：将代理工作与人类意愿对齐

JobBench是一个新的AI代理基准测试，它评估代理在专家认为最值得委派的工作流程上的表现，旨在强调增强而非替代人类。

来源arXiv AI作者: Yuetai Li, Yichen Feng, Zhangchen Xu, Zixian Ma, Kaiyuan Zheng, Fengqing Jiang, Xinghua Sun, Rulin Shao, Zichen Chen, Yue Huang, Xinyang Han, Brian Lee, Kayla Xu, Shenglai Zeng, Hang Hua, Xiangliang Zhang, Basel Alomair, Ranjay Krishna, Luke Zettlemoyer, Pang Wei Koh, Bhaskar Ramasubramanian, Luyao Niu, Xiang Yue, Radha Poovendran

2026年5月25日，由Yuetai Li等24位研究者共同提交的论文《JobBench: Aligning Agent Work With Human Will》在arXiv上正式发布。该论文提出了一种全新的基准测试框架——JobBench，用于评估AI代理在真实职业工作流程中的表现。与当前主流基准测试主要基于经济价值、讲述替代人类故事不同，JobBench聚焦于专家认定的高优先级委派工作流，其根本目标是增强人类而非以GDP价值取代人类。

JobBench覆盖了35个不同的职业领域，包括法律、医疗、工程、教育、金融等，共计130项具体的代理任务。每项任务都被精心设计为一个包含多种异构参考文件的工作空间，要求AI代理在这种杂乱无章的真实专业信息流中进行推理、决策和操作。输出结果通过基于事实的评估链进行评分，每项任务平均包含35.6个二进制评分标准，确保评估的客观性和全面性。研究团队对36个当前主流AI模型进行了全面评估，结果显示，即使是最强的模型——在Claude Code环境下的Claude Opus 4.7，也仅达到了45.9%的得分。这一结果凸显了当前AI代理在处理复杂职业任务方面仍有巨大的提升空间。

通过JobBench，研究者希望引导整个AI社区将劳动力市场的关注点从替代转向增强，即构建那些能够执行人类真正愿意委派的代理系统，而不仅仅是追求经济价值的最大化。这一转变有望推动AI代理更好地服务于人类需求，实现真正的人机协作。该基准测试的完整代码和数据集已开源，供社区进一步研究和开发。