SentinelBench:面向長期監控智能體的基準測試
AI智能體默認採用連續動作模式,但對於需要數分鐘乃至數小時的長期任務而言,這種策略效率低下。SentinelBench是一個開源的基準測試,包含10個合成網絡環境中的100個任務,用於評估智能體在時間演化監控任務中的表現。它衡量任務完成度、反應時間和資源使用,揭示了響應性與成本之間的權衡。初步實驗表明,不同的智能體設計會顯著影響關鍵指標,為後續研究提供了基線。
來源arXiv AI作者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi
近年來,AI智能體被越來越多地應用於需要持續數分鐘甚至數小時的任務中。然而,大多數智能體的默認行為模式是連續動作——不斷調用工具、刷新頁面、搜索替代方案或強行推進進度。這種策略對於許多長期任務而言並不合適。相反,這類任務更適合一種“持續關注”的策略:智能體應監控環境,在外部事件發生時做出及時響應,同時避免在等待過程中浪費資源。
為了衡量在這一類任務上的進展,研究人員推出了SentinelBench——一個開源的時間演化監控任務基準測試。SentinelBench包含100個任務,分佈於10個合成網絡環境,涵蓋電子郵件、日曆、金融、專業社交網絡和娛樂等領域。每個環境都提供一個實時網頁界面,並回放預設的事件序列,要求智能體在狀態變化的頁面中導航和推理。
SentinelBench評估任務完成度、反應時間和資源使用,從而揭示響應性與成本之間的權衡。研究團隊在三個不同模型和兩種瀏覽器智能體框架上進行了實驗,建立了未來比較的性能基線。結果標明,智能體設計的選擇會顯著影響關鍵指標,而SentinelBench能夠有效區分不同智能體行為之間的差異。
這項研究為設計和評估長期監控智能體提供了重要的測試平台,有望推動AI智能體從“持續行動”向“智能等待”的範式轉變。