AI News HubLIVE
站内改写1 分钟阅读

面向长周期网络代理的信号驱动观察

网络代理在长周期任务中每步动作都读取完整DOM(通常数万token),导致上下文逐渐退化。本文提出信号驱动观察(SDO):专用子调用读取完整DOM但只返回任务相关元素,仅当轻量信号检测器触发时重新调用。作者呼吁将观察压缩作为核心架构决策。

来源arXiv Computational Linguistics作者: Shubham Gaur, Ian Lane

当前网络代理在处理长周期任务时,面临着严重的上下文退化问题。代理在每一步动作中都需要读取完整的DOM树和可访问性树,这些内容通常包含数万token。随着任务的进行,这种无差别的信息输入导致了代理推理能力的逐步下降。论文指出,将观察频率与动作频率耦合是一个架构上的错误。

受递归语言模型中“查询文档优于通读全文”的启发,作者提出了信号驱动观察(SDO)机制。SDO通过一个专门的子调用来读取完整的DOM,但只返回任务相关的元素及其选择器。更重要的是,这个子调用仅在轻量级信号检测器触发时才重新执行。触发条件包括URL切换、新交互元素出现、动作失败或外部浏览器事件。这种设计大幅减少了每步操作的token消耗,同时保持了代理对环境的感知能力。

论文还提出了SDO带来的开放问题,例如如何设计高效的信号检测器、如何定义“任务相关元素”、以及如何处理信号检测器本身的误报和漏报。作者呼吁社区将观察压缩作为网络代理架构的核心设计决策,而非事后优化。这一思路有望成为未来高性能网络代理的基础,推动代理在复杂、多步骤任务中的实际应用。