2026-06-06 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

SentinelBench：面向长期监控智能体的基准测试

AI智能体默认采用连续动作模式，但对于需要数分钟乃至数小时的长期任务而言，这种策略效率低下。SentinelBench是一个开源的基准测试，包含10个合成网络环境中的100个任务，用于评估智能体在时间演化监控任务中的表现。它衡量任务完成度、反应时间和资源使用，揭示了响应性与成本之间的权衡。初步实验表明，不同的智能体设计会显著影响关键指标，为后续研究提供了基线。

来源arXiv AI作者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi

近年来，AI智能体被越来越多地应用于需要持续数分钟甚至数小时的任务中。然而，大多数智能体的默认行为模式是连续动作——不断调用工具、刷新页面、搜索替代方案或强行推进进度。这种策略对于许多长期任务而言并不合适。相反，这类任务更适合一种“持续关注”的策略：智能体应监控环境，在外部事件发生时做出及时响应，同时避免在等待过程中浪费资源。

为了衡量在这一类任务上的进展，研究人员推出了SentinelBench——一个开源的时间演化监控任务基准测试。SentinelBench包含100个任务，分布于10个合成网络环境，涵盖电子邮件、日历、金融、专业社交网络和娱乐等领域。每个环境都提供一个实时网页界面，并回放预设的事件序列，要求智能体在状态变化的页面中导航和推理。

SentinelBench评估任务完成度、反应时间和资源使用，从而揭示响应性与成本之间的权衡。研究团队在三个不同模型和两种浏览器智能体框架上进行了实验，建立了未来比较的性能基线。结果标明，智能体设计的选择会显著影响关键指标，而SentinelBench能够有效区分不同智能体行为之间的差异。

这项研究为设计和评估长期监控智能体提供了重要的测试平台，有望推动AI智能体从“持续行动”向“智能等待”的范式转变。