2026-06-06 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SentinelBench：面向長期監控智慧體的基準測試

AI智慧體預設採用連續動作模式，但對於需要數分鐘乃至數小時的長期任務而言，這種策略效率低下。SentinelBench是一個開源的基準測試，包含10個合成網路環境中的100個任務，用於評估智慧體在時間演化監控任務中的表現。它衡量任務完成度、反應時間和資源使用，揭示了響應性與成本之間的權衡。初步實驗表明，不同的智慧體設計會顯著影響關鍵指標，為後續研究提供了基線。

來源arXiv AI作者: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi

近年來，AI智慧體被越來越多地應用於需要持續數分鐘甚至數小時的任務中。然而，大多數智慧體的預設行為模式是連續動作——不斷呼叫工具、重新整理頁面、搜尋替代方案或強行推進進度。這種策略對於許多長期任務而言並不合適。相反，這類任務更適合一種“持續關注”的策略：智慧體應監控環境，在外部事件發生時做出及時響應，同時避免在等待過程中浪費資源。

為了衡量在這一類任務上的進展，研究人員推出了SentinelBench——一個開源的時間演化監控任務基準測試。SentinelBench包含100個任務，分佈於10個合成網路環境，涵蓋電子郵件、日曆、金融、專業社交網路和娛樂等領域。每個環境都提供一個即時網頁介面，並回放預設的事件序列，要求智慧體在狀態變化的頁面中導航和推理。

SentinelBench評估任務完成度、反應時間和資源使用，從而揭示響應性與成本之間的權衡。研究團隊在三個不同模型和兩種瀏覽器智慧體框架上進行了實驗，建立了未來比較的效能基線。結果標明，智慧體設計的選擇會顯著影響關鍵指標，而SentinelBench能夠有效區分不同智慧體行為之間的差異。

這項研究為設計和評估長期監控智慧體提供了重要的測試平臺，有望推動AI智慧體從“持續行動”向“智慧等待”的正規化轉變。