2026-05-27 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

JobBench：エージェントの仕事を人間の意志に合わせる

JobBenchは、専門家が委任を優先するワークフローでAIエージェントを評価する新しいベンチマークであり、GDP価値による置き換えではなく人間の能力を高めることを目指しています。

ソースarXiv AI著者: Yuetai Li, Yichen Feng, Zhangchen Xu, Zixian Ma, Kaiyuan Zheng, Fengqing Jiang, Xinghua Sun, Rulin Shao, Zichen Chen, Yue Huang, Xinyang Han, Brian Lee, Kayla Xu, Shenglai Zeng, Hang Hua, Xiangliang Zhang, Basel Alomair, Ranjay Krishna, Luke Zettlemoyer, Pang Wei Koh, Bhaskar Ramasubramanian, Luyao Niu, Xiang Yue, Radha Poovendran

2026年5月25日、Yuetai Li氏を含む24名の研究者によってarXivに提出された論文「JobBench: Aligning Agent Work With Human Will」は、職業AIエージェントのための新しいベンチマークであるJobBenchを提案しています。既存のベンチマークが主に経済的価値に基づき、人間の代替を語るのに対し、JobBenchは専門家が委任を優先するワークフローに焦点を当て、GDP価値による置き換えではなく、人間のニーズに基づいたエンパワーメントを目指しています。

JobBenchは、法律、医療、エンジニアリング、教育、金融など35の職業にわたる130のエージェントタスクをカバーしています。各タスクは、異種の参照ファイルを含むワークスペースとして設計され、エージェントは現実の専門業務における雑然とした情報の流れの中で推論、意思決定、操作を行う必要があります。出力は事実に基づく評価の連鎖によって採点され、タスクごとに平均35.6の二値基準が適用されます。研究チームは36の主要モデルを評価し、最強モデルであるClaude Opus 4.7（Claude Code使用）でも45.9%のスコアにとどまり、現在のAIエージェントが複雑な職業タスクにおいて大きな改善の余地があることを示しました。

JobBenchを通じて、研究者はコミュニティの労働市場への影響を代替から強化へとシフトさせることを期待しています。経済的に最も価値のあるタスクだけでなく、人間が実際に委任したいと望むタスクを実行するエージェントを構築することで、AIエージェントは人間の真のニーズに応えるものとなります。このベンチマークのコードとデータセットはオープンソースとして公開されており、さらなる研究と開発が促進されることが期待されています。