JobBench:エージェントの仕事を人間の意志に合わせる
JobBenchは、専門家が委任を優先するワークフローでAIエージェントを評価する新しいベンチマークであり、GDP価値による置き換えではなく人間の能力を高めることを目指しています。
記事インテリジェンス
要点
- 35の職業にわたる130のエージェントタスクをカバー
- タスクごとに平均35.6の二値基準
- 最強モデルClaude Opus 4.7は45.9%のみ
- 労働市場への影響を代替から強化へとシフト
重要な理由
このニュースが重要なのは、35の職業にわたる130のエージェントタスクをカバーためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
2026年5月25日、Yuetai Li氏を含む24名の研究者によってarXivに提出された論文「JobBench: Aligning Agent Work With Human Will」は、職業AIエージェントのための新しいベンチマークであるJobBenchを提案しています。既存のベンチマークが主に経済的価値に基づき、人間の代替を語るのに対し、JobBenchは専門家が委任を優先するワークフローに焦点を当て、GDP価値による置き換えではなく、人間のニーズに基づいたエンパワーメントを目指しています。
JobBenchは、法律、医療、エンジニアリング、教育、金融など35の職業にわたる130のエージェントタスクをカバーしています。各タスクは、異種の参照ファイルを含むワークスペースとして設計され、エージェントは現実の専門業務における雑然とした情報の流れの中で推論、意思決定、操作を行う必要があります。出力は事実に基づく評価の連鎖によって採点され、タスクごとに平均35.6の二値基準が適用されます。研究チームは36の主要モデルを評価し、最強モデルであるClaude Opus 4.7(Claude Code使用)でも45.9%のスコアにとどまり、現在のAIエージェントが複雑な職業タスクにおいて大きな改善の余地があることを示しました。
JobBenchを通じて、研究者はコミュニティの労働市場への影響を代替から強化へとシフトさせることを期待しています。経済的に最も価値のあるタスクだけでなく、人間が実際に委任したいと望むタスクを実行するエージェントを構築することで、AIエージェントは人間の真のニーズに応えるものとなります。このベンチマークのコードとデータセットはオープンソースとして公開されており、さらなる研究と開発が促進されることが期待されています。