2026-06-08 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

面向長週期網路代理的訊號驅動觀察

網路代理在長週期任務中每步動作都讀取完整DOM（通常數萬token），導致上下文逐漸退化。本文提出訊號驅動觀察（SDO）：專用子呼叫讀取完整DOM但只返回任務相關元素，僅當輕量訊號檢測器觸發時重新呼叫。作者呼籲將觀察壓縮作為核心架構決策。

來源arXiv Computational Linguistics作者: Shubham Gaur, Ian Lane

當前網路代理在處理長週期任務時，面臨著嚴重的上下文退化問題。代理在每一步動作中都需要讀取完整的DOM樹和可訪問性樹，這些內容通常包含數萬token。隨著任務的進行，這種無差別的資訊輸入導致了代理推理能力的逐步下降。論文指出，將觀察頻率與動作頻率耦合是一個架構上的錯誤。

受遞迴語言模型中“查詢文件優於通讀全文”的啟發，作者提出了訊號驅動觀察（SDO）機制。SDO透過一個專門的子呼叫來讀取完整的DOM，但只返回任務相關的元素及其選擇器。更重要的是，這個子呼叫僅在輕量級訊號檢測器觸發時才重新執行。觸發條件包括URL切換、新互動元素出現、動作失敗或外部瀏覽器事件。這種設計大幅減少了每步操作的token消耗，同時保持了代理對環境的感知能力。

論文還提出了SDO帶來的開放問題，例如如何設計高效的訊號檢測器、如何定義“任務相關元素”、以及如何處理訊號檢測器本身的誤報和漏報。作者呼籲社群將觀察壓縮作為網路代理架構的核心設計決策，而非事後最佳化。這一思路有望成為未來高效能網路代理的基礎，推動代理在複雜、多步驟任務中的實際應用。