SentinelBench:面向長期監控智慧體的基準測試
AI智慧體預設採用連續動作模式,但對於需要數分鐘乃至數小時的長期任務而言,這種策略效率低下。SentinelBench是一個開源的基準測試,包含10個合成網路環境中的100個任務,用於評估智慧體在時間演化監控任務中的表現。它衡量任務完成度、反應時間和資源使用,揭示了響應性與成本之間的權衡。初步實驗表明,不同的智慧體設計會顯著影響關鍵指標,為後續研究提供了基線。
來源arXiv AI作者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi
近年來,AI智慧體被越來越多地應用於需要持續數分鐘甚至數小時的任務中。然而,大多數智慧體的預設行為模式是連續動作——不斷呼叫工具、重新整理頁面、搜尋替代方案或強行推進進度。這種策略對於許多長期任務而言並不合適。相反,這類任務更適合一種“持續關注”的策略:智慧體應監控環境,在外部事件發生時做出及時響應,同時避免在等待過程中浪費資源。
為了衡量在這一類任務上的進展,研究人員推出了SentinelBench——一個開源的時間演化監控任務基準測試。SentinelBench包含100個任務,分佈於10個合成網路環境,涵蓋電子郵件、日曆、金融、專業社交網路和娛樂等領域。每個環境都提供一個即時網頁介面,並回放預設的事件序列,要求智慧體在狀態變化的頁面中導航和推理。
SentinelBench評估任務完成度、反應時間和資源使用,從而揭示響應性與成本之間的權衡。研究團隊在三個不同模型和兩種瀏覽器智慧體框架上進行了實驗,建立了未來比較的效能基線。結果標明,智慧體設計的選擇會顯著影響關鍵指標,而SentinelBench能夠有效區分不同智慧體行為之間的差異。
這項研究為設計和評估長期監控智慧體提供了重要的測試平臺,有望推動AI智慧體從“持續行動”向“智慧等待”的正規化轉變。