2026-05-24 16:56 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

微软研究院发布Webwright：一个终端原生Web代理框架，在Odysseys上达到60.1%，比基础GPT-5.4的33.5%大幅提升

微软研究院推出Webwright，一个终端原生浏览器代理框架，用可复用的Playwright脚本替代逐次点击的Web自动化。通过单个智能体循环和约1000行代码，基于GPT-5.4的Webwright在长期任务基准Odysseys上达到60.1%，在Online-Mind2Web上达到86.7%，是开源方案中AutoEval最高分。

来源MarkTechPost作者: Asif Razzaq

当前大多数Web代理以逐次动作的方式驱动浏览器：模型接收当前页面状态（截图或DOM文本），预测下一步点击、按键或滚动。这种设计在语言模型推理能力有限时是合理的，但随着模型编写和调试代码能力的增强，这种刚性循环反而成为约束。

微软研究院AI前沿实验室构建了不同方法。他们的新开源框架Webwright赋予代理一个终端，而非有状态的浏览器会话。代理编写Playwright代码来控制浏览器，运行bash命令，检查日志，并迭代改进脚本。Playwright是微软开源的浏览器自动化库，支持编程控制Chromium、Firefox和WebKit。

Webwright将代理与浏览器分离，将浏览器视为代理在编写程序过程中可以启动、检查和丢弃的工具。持久化的工件不是浏览器会话，而是本地工作区中的代码和日志。这与开发人员编写RPA脚本的模式相同：一次性编写脚本，可重复运行、调整和共享。系统包含三个核心组件：Runner（约150行代码）、Model Endpoint（约550行）和终端Environment（约300行）。没有多智能体编排或复杂的规划层次，只有一个智能体循环。所有中间代码、日志、截图和结果都存储在工作区中，便于检查每个运行。

智能体循环工作方式如下：Runner将当前上下文发送给模型，模型返回一个思考块和一个shell命令。该命令在Environment中运行，返回终端输出、日志、截图或错误回溯。这些观察结果放回上下文，循环继续。编码代理可以自然地表达多步交互，如选择日期或填写整个表单，作为紧凑程序。循环、函数和抽象使代理能够泛化到类似任务，而无需重复预测相似的低级步骤序列。

两个核心工程挑战是过早完成和上下文爆炸。对于过早完成，他们添加了一个门控：代理必须生成自我反思配置，在新文件夹中运行最终脚本并包含日志和截图，然后通过自我反思判断输出成功或失败，之后才发出完成标志。否则标志被丢弃并重试。对于上下文长度，长编码轨迹会迅速超出上下文限制，因此他们每20步将历史压缩为单个摘要。

基准测试结果：Webwright在Online-Mind2Web（300个任务，136个常用网站）上使用GPT-5.4达到86.67%的总体准确率，是开源方案中AutoEval最高分。Claude Opus 4.7达到84.7%，但在困难任务上（N=100步）表现更好（80.5% vs 76.6%）。他们还重现了GPT-5.4在传统截图基础代理中的基线，Webwright在所有三个难度类别上取得实质性提升，凸显了代码驱动终端方法相比逐步坐标预测的优势。在Odysseys长期浏览任务基准上，任务平均指令272.3词，2026年4月排行榜上最佳模型Opus 4.6得分为44.5。Webwright powered by GPT-5.4达到60.1%，相对改进35.1%，相比基础GPT-5.4的33.5%相对提升79.4%（绝对提升26.6个百分点）。

成本分析：Claude Opus 4.7每任务平均步数更少（21.9步 vs 26.3步），但定价更高（输入$5 vs $2.5每百万token，输出$25 vs $15），导致平均每任务成本更高（$6.09 vs $2.37）。前50步达到82%准确率，后50步增加3-4个百分点。

小模型性能：研究团队还在Online-Mind2Web困难子集测试了Qwen3.5-9B。当任务配备预构建可复用工具脚本时，Qwen3.5-9B在拥有五个以上工具的网站上达到66.2%，表明更小、成本更低的模型在配合预建工具库时可以处理复杂Web任务。

Webwright约1000行代码，三个模块，无隐藏编排。它支持OpenAI、Anthropic、OpenRouter后端，脚本可复用于Claude Code、Codex、OpenClaw。安装需Python 3.10+、Chromium、API密钥。开源地址：github.com/microsoft/Webwright。