AI News HubLIVE
站内改写1 分钟阅读

SentinelBench:面向长期监控智能体的基准测试

AI智能体默认采用连续动作模式,但对于需要数分钟乃至数小时的长期任务而言,这种策略效率低下。SentinelBench是一个开源的基准测试,包含10个合成网络环境中的100个任务,用于评估智能体在时间演化监控任务中的表现。它衡量任务完成度、反应时间和资源使用,揭示了响应性与成本之间的权衡。初步实验表明,不同的智能体设计会显著影响关键指标,为后续研究提供了基线。

来源arXiv AI作者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi

近年来,AI智能体被越来越多地应用于需要持续数分钟甚至数小时的任务中。然而,大多数智能体的默认行为模式是连续动作——不断调用工具、刷新页面、搜索替代方案或强行推进进度。这种策略对于许多长期任务而言并不合适。相反,这类任务更适合一种“持续关注”的策略:智能体应监控环境,在外部事件发生时做出及时响应,同时避免在等待过程中浪费资源。

为了衡量在这一类任务上的进展,研究人员推出了SentinelBench——一个开源的时间演化监控任务基准测试。SentinelBench包含100个任务,分布于10个合成网络环境,涵盖电子邮件、日历、金融、专业社交网络和娱乐等领域。每个环境都提供一个实时网页界面,并回放预设的事件序列,要求智能体在状态变化的页面中导航和推理。

SentinelBench评估任务完成度、反应时间和资源使用,从而揭示响应性与成本之间的权衡。研究团队在三个不同模型和两种浏览器智能体框架上进行了实验,建立了未来比较的性能基线。结果标明,智能体设计的选择会显著影响关键指标,而SentinelBench能够有效区分不同智能体行为之间的差异。

这项研究为设计和评估长期监控智能体提供了重要的测试平台,有望推动AI智能体从“持续行动”向“智能等待”的范式转变。