AI News HubLIVE
站内改写

微软研究院发布Webwright:一个终端原生Web代理框架,在Odysseys上达到60.1%,比基础GPT-5.4的33.5%大幅提升

微软研究院推出Webwright,一个终端原生浏览器代理框架,用可复用的Playwright脚本替代逐次点击的Web自动化。通过单个智能体循环和约1000行代码,基于GPT-5.4的Webwright在长期任务基准Odysseys上达到60.1%,在Online-Mind2Web上达到86.7%,是开源方案中AutoEval最高分。

文章情报

工程师进阶

要点

  • Webwright使用终端循环,代理编写并运行Playwright代码,而不是逐次预测浏览器动作。
  • GPT-5.4在Online-Mind2Web上达到86.7%(100步预算),在Odysseys上达到60.1%,比基础GPT-5.4的33.5%提高26.6个百分点。
  • 整个框架约1000行代码,三个模块,无多智能体编排。
  • Qwen3.5-9B在配备预构建工具脚本后在Online-Mind2Web困难子集上达到66.2%。

为什么重要

这条新闻值得关注,因为Webwright使用终端循环,代理编写并运行Playwright代码,而不是逐次预测浏览器动作。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

当前大多数Web代理以逐次动作的方式驱动浏览器:模型接收当前页面状态(截图或DOM文本),预测下一步点击、按键或滚动。这种设计在语言模型推理能力有限时是合理的,但随着模型编写和调试代码能力的增强,这种刚性循环反而成为约束。

微软研究院AI前沿实验室构建了不同方法。他们的新开源框架Webwright赋予代理一个终端,而非有状态的浏览器会话。代理编写Playwright代码来控制浏览器,运行bash命令,检查日志,并迭代改进脚本。Playwright是微软开源的浏览器自动化库,支持编程控制Chromium、Firefox和WebKit。

Webwright将代理与浏览器分离,将浏览器视为代理在编写程序过程中可以启动、检查和丢弃的工具。持久化的工件不是浏览器会话,而是本地工作区中的代码和日志。这与开发人员编写RPA脚本的模式相同:一次性编写脚本,可重复运行、调整和共享。系统包含三个核心组件:Runner(约150行代码)、Model Endpoint(约550行)和终端Environment(约300行)。没有多智能体编排或复杂的规划层次,只有一个智能体循环。所有中间代码、日志、截图和结果都存储在工作区中,便于检查每个运行。

智能体循环工作方式如下:Runner将当前上下文发送给模型,模型返回一个思考块和一个shell命令。该命令在Environment中运行,返回终端输出、日志、截图或错误回溯。这些观察结果放回上下文,循环继续。编码代理可以自然地表达多步交互,如选择日期或填写整个表单,作为紧凑程序。循环、函数和抽象使代理能够泛化到类似任务,而无需重复预测相似的低级步骤序列。

两个核心工程挑战是过早完成和上下文爆炸。对于过早完成,他们添加了一个门控:代理必须生成自我反思配置,在新文件夹中运行最终脚本并包含日志和截图,然后通过自我反思判断输出成功或失败,之后才发出完成标志。否则标志被丢弃并重试。对于上下文长度,长编码轨迹会迅速超出上下文限制,因此他们每20步将历史压缩为单个摘要。

基准测试结果:Webwright在Online-Mind2Web(300个任务,136个常用网站)上使用GPT-5.4达到86.67%的总体准确率,是开源方案中AutoEval最高分。Claude Opus 4.7达到84.7%,但在困难任务上(N=100步)表现更好(80.5% vs 76.6%)。他们还重现了GPT-5.4在传统截图基础代理中的基线,Webwright在所有三个难度类别上取得实质性提升,凸显了代码驱动终端方法相比逐步坐标预测的优势。在Odysseys长期浏览任务基准上,任务平均指令272.3词,2026年4月排行榜上最佳模型Opus 4.6得分为44.5。Webwright powered by GPT-5.4达到60.1%,相对改进35.1%,相比基础GPT-5.4的33.5%相对提升79.4%(绝对提升26.6个百分点)。

成本分析:Claude Opus 4.7每任务平均步数更少(21.9步 vs 26.3步),但定价更高(输入$5 vs $2.5每百万token,输出$25 vs $15),导致平均每任务成本更高($6.09 vs $2.37)。前50步达到82%准确率,后50步增加3-4个百分点。

小模型性能:研究团队还在Online-Mind2Web困难子集测试了Qwen3.5-9B。当任务配备预构建可复用工具脚本时,Qwen3.5-9B在拥有五个以上工具的网站上达到66.2%,表明更小、成本更低的模型在配合预建工具库时可以处理复杂Web任务。

Webwright约1000行代码,三个模块,无隐藏编排。它支持OpenAI、Anthropic、OpenRouter后端,脚本可复用于Claude Code、Codex、OpenClaw。安装需Python 3.10+、Chromium、API密钥。开源地址:github.com/microsoft/Webwright。