AI News HubLIVE
站内改写

JobBench:將代理工作與人類意願對齊

JobBench是一個新的AI代理基準測試,它評估代理在專家認為最值得委派的工作流程上的表現,旨在強調增強而非替代人類。

文章情報

工程師進階

要點

  • 涵蓋35個職業的130項任務
  • 每項任務平均35.6個二進制評分標準
  • 最強模型Claude Opus 4.7僅得45.9%
  • 目標是將勞動力市場影響從替代轉向增強

為甚麼重要

這條新聞值得關注,因為涵蓋35個職業的130項任務。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

2026年5月25日,由Yuetai Li等24位研究者共同提交的論文《JobBench: Aligning Agent Work With Human Will》在arXiv上正式發佈。該論文提出了一種全新的基準測試框架——JobBench,用於評估AI代理在真實職業工作流程中的表現。與當前主流基準測試主要基於經濟價值、講述替代人類故事不同,JobBench聚焦於專家認定的高優先級委派工作流,其根本目標是增強人類而非以GDP價值取代人類。

JobBench覆蓋了35個不同的職業領域,包括法律、醫療、工程、教育、金融等,共計130項具體的代理任務。每項任務都被精心設計為一個包含多種異構參考文件的工作空間,要求AI代理在這種雜亂無章的真實專業信息流中進行推理、決策和操作。輸出結果通過基於事實的評估鏈進行評分,每項任務平均包含35.6個二進制評分標準,確保評估的客觀性和全面性。研究團隊對36個當前主流AI模型進行了全面評估,結果顯示,即使是最強的模型——在Claude Code環境下的Claude Opus 4.7,也僅達到了45.9%的得分。這一結果凸顯了當前AI代理在處理複雜職業任務方面仍有巨大的提升空間。

通過JobBench,研究者希望引導整個AI社區將勞動力市場的關注點從替代轉向增強,即構建那些能夠執行人類真正願意委派的代理系統,而不僅僅是追求經濟價值的最大化。這一轉變有望推動AI代理更好地服務於人類需求,實現真正的人機協作。該基準測試的完整代碼和數據集已開源,供社區進一步研究和開發。