2026-06-06 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SentinelBench：面向長期監控智能體的基準測試

AI智能體默認採用連續動作模式，但對於需要數分鐘乃至數小時的長期任務而言，這種策略效率低下。SentinelBench是一個開源的基準測試，包含10個合成網絡環境中的100個任務，用於評估智能體在時間演化監控任務中的表現。它衡量任務完成度、反應時間和資源使用，揭示了響應性與成本之間的權衡。初步實驗表明，不同的智能體設計會顯著影響關鍵指標，為後續研究提供了基線。

來源arXiv AI作者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi

近年來，AI智能體被越來越多地應用於需要持續數分鐘甚至數小時的任務中。然而，大多數智能體的默認行為模式是連續動作——不斷調用工具、刷新頁面、搜索替代方案或強行推進進度。這種策略對於許多長期任務而言並不合適。相反，這類任務更適合一種“持續關注”的策略：智能體應監控環境，在外部事件發生時做出及時響應，同時避免在等待過程中浪費資源。

為了衡量在這一類任務上的進展，研究人員推出了SentinelBench——一個開源的時間演化監控任務基準測試。SentinelBench包含100個任務，分佈於10個合成網絡環境，涵蓋電子郵件、日曆、金融、專業社交網絡和娛樂等領域。每個環境都提供一個實時網頁界面，並回放預設的事件序列，要求智能體在狀態變化的頁面中導航和推理。

SentinelBench評估任務完成度、反應時間和資源使用，從而揭示響應性與成本之間的權衡。研究團隊在三個不同模型和兩種瀏覽器智能體框架上進行了實驗，建立了未來比較的性能基線。結果標明，智能體設計的選擇會顯著影響關鍵指標，而SentinelBench能夠有效區分不同智能體行為之間的差異。

這項研究為設計和評估長期監控智能體提供了重要的測試平台，有望推動AI智能體從“持續行動”向“智能等待”的範式轉變。