2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

JobBench：將代理工作與人類意願對齊

JobBench是一個新的AI代理基準測試，它評估代理在專家認為最值得委派的工作流程上的表現，旨在強調增強而非替代人類。

來源arXiv AI作者: Yuetai Li, Yichen Feng, Zhangchen Xu, Zixian Ma, Kaiyuan Zheng, Fengqing Jiang, Xinghua Sun, Rulin Shao, Zichen Chen, Yue Huang, Xinyang Han, Brian Lee, Kayla Xu, Shenglai Zeng, Hang Hua, Xiangliang Zhang, Basel Alomair, Ranjay Krishna, Luke Zettlemoyer, Pang Wei Koh, Bhaskar Ramasubramanian, Luyao Niu, Xiang Yue, Radha Poovendran

2026年5月25日，由Yuetai Li等24位研究者共同提交的論文《JobBench: Aligning Agent Work With Human Will》在arXiv上正式發佈。該論文提出了一種全新的基準測試框架——JobBench，用於評估AI代理在真實職業工作流程中的表現。與當前主流基準測試主要基於經濟價值、講述替代人類故事不同，JobBench聚焦於專家認定的高優先級委派工作流，其根本目標是增強人類而非以GDP價值取代人類。

JobBench覆蓋了35個不同的職業領域，包括法律、醫療、工程、教育、金融等，共計130項具體的代理任務。每項任務都被精心設計為一個包含多種異構參考文件的工作空間，要求AI代理在這種雜亂無章的真實專業信息流中進行推理、決策和操作。輸出結果通過基於事實的評估鏈進行評分，每項任務平均包含35.6個二進制評分標準，確保評估的客觀性和全面性。研究團隊對36個當前主流AI模型進行了全面評估，結果顯示，即使是最強的模型——在Claude Code環境下的Claude Opus 4.7，也僅達到了45.9%的得分。這一結果凸顯了當前AI代理在處理複雜職業任務方面仍有巨大的提升空間。

通過JobBench，研究者希望引導整個AI社區將勞動力市場的關注點從替代轉向增強，即構建那些能夠執行人類真正願意委派的代理系統，而不僅僅是追求經濟價值的最大化。這一轉變有望推動AI代理更好地服務於人類需求，實現真正的人機協作。該基準測試的完整代碼和數據集已開源，供社區進一步研究和開發。