2026-06-08 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

面向長週期網絡代理的信號驅動觀察

網絡代理在長週期任務中每步動作都讀取完整DOM（通常數萬token），導致上下文逐漸退化。本文提出信號驅動觀察（SDO）：專用子調用讀取完整DOM但只返回任務相關元素，僅當輕量信號檢測器觸發時重新調用。作者呼籲將觀察壓縮作為核心架構決策。

來源arXiv Computational Linguistics作者: Shubham Gaur, Ian Lane

當前網絡代理在處理長週期任務時，面臨着嚴重的上下文退化問題。代理在每一步動作中都需要讀取完整的DOM樹和可訪問性樹，這些內容通常包含數萬token。隨着任務的進行，這種無差別的信息輸入導致了代理推理能力的逐步下降。論文指出，將觀察頻率與動作頻率耦合是一個架構上的錯誤。

受遞歸語言模型中“查詢文檔優於通讀全文”的啓發，作者提出了信號驅動觀察（SDO）機制。SDO通過一個專門的子調用來讀取完整的DOM，但只返回任務相關的元素及其選擇器。更重要的是，這個子調用僅在輕量級信號檢測器觸發時才重新執行。觸發條件包括URL切換、新交互元素出現、動作失敗或外部瀏覽器事件。這種設計大幅減少了每步操作的token消耗，同時保持了代理對環境的感知能力。

論文還提出了SDO帶來的開放問題，例如如何設計高效的信號檢測器、如何定義“任務相關元素”、以及如何處理信號檢測器本身的誤報和漏報。作者呼籲社區將觀察壓縮作為網絡代理架構的核心設計決策，而非事後優化。這一思路有望成為未來高性能網絡代理的基礎，推動代理在複雜、多步驟任務中的實際應用。