2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

面向长周期网络代理的信号驱动观察

网络代理在长周期任务中每步动作都读取完整DOM（通常数万token），导致上下文逐渐退化。本文提出信号驱动观察（SDO）：专用子调用读取完整DOM但只返回任务相关元素，仅当轻量信号检测器触发时重新调用。作者呼吁将观察压缩作为核心架构决策。

来源arXiv Computational Linguistics作者: Shubham Gaur, Ian Lane

当前网络代理在处理长周期任务时，面临着严重的上下文退化问题。代理在每一步动作中都需要读取完整的DOM树和可访问性树，这些内容通常包含数万token。随着任务的进行，这种无差别的信息输入导致了代理推理能力的逐步下降。论文指出，将观察频率与动作频率耦合是一个架构上的错误。

受递归语言模型中“查询文档优于通读全文”的启发，作者提出了信号驱动观察（SDO）机制。SDO通过一个专门的子调用来读取完整的DOM，但只返回任务相关的元素及其选择器。更重要的是，这个子调用仅在轻量级信号检测器触发时才重新执行。触发条件包括URL切换、新交互元素出现、动作失败或外部浏览器事件。这种设计大幅减少了每步操作的token消耗，同时保持了代理对环境的感知能力。

论文还提出了SDO带来的开放问题，例如如何设计高效的信号检测器、如何定义“任务相关元素”、以及如何处理信号检测器本身的误报和漏报。作者呼吁社区将观察压缩作为网络代理架构的核心设计决策，而非事后优化。这一思路有望成为未来高性能网络代理的基础，推动代理在复杂、多步骤任务中的实际应用。