AI News HubLIVE
站内改写1 分鐘閱讀

面向長週期網絡代理的信號驅動觀察

網絡代理在長週期任務中每步動作都讀取完整DOM(通常數萬token),導致上下文逐漸退化。本文提出信號驅動觀察(SDO):專用子調用讀取完整DOM但只返回任務相關元素,僅當輕量信號檢測器觸發時重新調用。作者呼籲將觀察壓縮作為核心架構決策。

來源arXiv Computational Linguistics作者: Shubham Gaur, Ian Lane

當前網絡代理在處理長週期任務時,面臨着嚴重的上下文退化問題。代理在每一步動作中都需要讀取完整的DOM樹和可訪問性樹,這些內容通常包含數萬token。隨着任務的進行,這種無差別的信息輸入導致了代理推理能力的逐步下降。論文指出,將觀察頻率與動作頻率耦合是一個架構上的錯誤。

受遞歸語言模型中“查詢文檔優於通讀全文”的啓發,作者提出了信號驅動觀察(SDO)機制。SDO通過一個專門的子調用來讀取完整的DOM,但只返回任務相關的元素及其選擇器。更重要的是,這個子調用僅在輕量級信號檢測器觸發時才重新執行。觸發條件包括URL切換、新交互元素出現、動作失敗或外部瀏覽器事件。這種設計大幅減少了每步操作的token消耗,同時保持了代理對環境的感知能力。

論文還提出了SDO帶來的開放問題,例如如何設計高效的信號檢測器、如何定義“任務相關元素”、以及如何處理信號檢測器本身的誤報和漏報。作者呼籲社區將觀察壓縮作為網絡代理架構的核心設計決策,而非事後優化。這一思路有望成為未來高性能網絡代理的基礎,推動代理在複雜、多步驟任務中的實際應用。