AI News HubLIVE
站内改写1 分鐘閱讀

面向長週期網路代理的訊號驅動觀察

網路代理在長週期任務中每步動作都讀取完整DOM(通常數萬token),導致上下文逐漸退化。本文提出訊號驅動觀察(SDO):專用子呼叫讀取完整DOM但只返回任務相關元素,僅當輕量訊號檢測器觸發時重新呼叫。作者呼籲將觀察壓縮作為核心架構決策。

來源arXiv Computational Linguistics作者: Shubham Gaur, Ian Lane

當前網路代理在處理長週期任務時,面臨著嚴重的上下文退化問題。代理在每一步動作中都需要讀取完整的DOM樹和可訪問性樹,這些內容通常包含數萬token。隨著任務的進行,這種無差別的資訊輸入導致了代理推理能力的逐步下降。論文指出,將觀察頻率與動作頻率耦合是一個架構上的錯誤。

受遞迴語言模型中“查詢文件優於通讀全文”的啟發,作者提出了訊號驅動觀察(SDO)機制。SDO透過一個專門的子呼叫來讀取完整的DOM,但只返回任務相關的元素及其選擇器。更重要的是,這個子呼叫僅在輕量級訊號檢測器觸發時才重新執行。觸發條件包括URL切換、新互動元素出現、動作失敗或外部瀏覽器事件。這種設計大幅減少了每步操作的token消耗,同時保持了代理對環境的感知能力。

論文還提出了SDO帶來的開放問題,例如如何設計高效的訊號檢測器、如何定義“任務相關元素”、以及如何處理訊號檢測器本身的誤報和漏報。作者呼籲社群將觀察壓縮作為網路代理架構的核心設計決策,而非事後最佳化。這一思路有望成為未來高效能網路代理的基礎,推動代理在複雜、多步驟任務中的實際應用。