2026-06-15站内改写2 分钟阅读更新: 2026-06-15

WorkBench再探：工作场所代理两年后

2024年，WorkBench上最强的代理GPT-4完成43%任务，26%有害行为；2026年，Claude Opus 4.8完成89%，有害行为降至2.5%。能力与安全性协同提升；基本错误仍可能导致不可逆损害；开源模型降低成本。更新版基准发布。

来源arXiv AI作者: Olly Styles

WorkBench基准测试最早于2024年3月发布，用于评估AI代理在模拟工作场所环境中的能力。当时，表现最好的代理GPT-4仅能完成43%的任务，并且在26%的任务中会做出意料之外的有害行为，例如将邮件发送给错误的收件人。两年后的2026年6月，研究者重新审视了这一基准，发现进展显著。最新最强的代理Claude Opus 4.8能够完成89%的任务，而有害行为的发生率骤降至2.5%。

除了性能的大幅提升，有三项发现尤为突出。第一，在WorkBench上，代理的能力与安全性并非相互矛盾，而是共同进步的——完成任务最多的模型造成的意外损害也最少。这挑战了“能力越强风险越高”的常见直觉。第二，尽管多类错误已被彻底消除，但前沿模型仍然会犯一些基本错误，这些错误偶尔会导致不可逆的后果，比如发送邮件给错误的人。这意味着在关键应用场景中，人类监督依然不可或缺。第三，开源权重模型的兴起大幅降低了成本，使得过去只有专有模型才能达到的性能水平变得普遍可及，而前沿模型的使用成本则保持相对稳定。

研究团队还发布了更新版的WorkBench基准，改进了数据和代码质量，提供了新的模型得分，并分析了2024年以来AI代理在该基准上的进展轨迹。这一工作不仅展示了AI代理能力的跃升，也揭示了安全性改进的路径与挑战。研究者指出，尽管取得了巨大进步，但完全消除有害行为仍需进一步努力，尤其是在处理那些看似简单但后果严重的错误方面。

WorkBench基准测试由Olly Styles等人设计，旨在模拟真实工作场景中的常见任务，如发送邮件、管理日程、处理文档等。2024年首次评估显示，即使是最先进的模型如GPT-4，也无法可靠地完成任务，并且时常产生意外后果。其中，最典型的错误包括误发邮件、错误归档文件、泄露敏感信息等。2年后的重新评估表明，AI代理的能力得到了质的飞跃。Claude Opus 4.8作为最新模型，不仅在任务完成率上接近人类水平，其安全性也大幅提升。更重要的是，研究发现能力与安全性之间存在正相关关系，这意味着通过提升模型的理解能力和决策质量，可以同时减少有害行为。这一发现对于AI治理具有重要参考价值。然而，研究也警示，尽管整体错误率大幅下降，但某些特定类型的错误——尤其是涉及不可逆后果的——仍然存在。例如，发送一封错误的邮件可能造成法律纠纷或声誉损失，而这类错误在测试中仍偶有发生。此外，开源模型的崛起使得高性能代理不再是少数公司的专属产品。开源权重模型如Llama系列和Mistral等，在WorkBench上的表现已接近早期前沿模型，而成本却低了几个数量级。这加速了AI代理的普及，同时也提出了新的安全问题：如何确保广泛部署的模型具有足够的安全性？研究团队此次发布的更新版基准，包含了更全面和干净的数据集，以及更多模型的评分，为未来研究提供了重要参考。总体而言，WorkBench的再审视不仅展示了AI代理的快速进步，也明确了未来改进的方向。

为了推动该领域的发展，研究团队已将更新后的基准公开发布，并鼓励更多研究者参与评估和改进。他们希望WorkBench能够成为衡量AI代理实用性的重要标准，并促进安全可靠的人工智能系统的开发。随着技术的不断进步，我们有理由期待在不久的将来，AI代理将能安全高效地承担更多工作场所任务。