微軟研究院發佈Webwright:一個終端原生Web代理框架,在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%大幅提升
微軟研究院推出Webwright,一個終端原生瀏覽器代理框架,用可複用的Playwright腳本替代逐次點擊的Web自動化。通過單個智能體循環和約1000行代碼,基於GPT-5.4的Webwright在長期任務基準Odysseys上達到60.1%,在Online-Mind2Web上達到86.7%,是開源方案中AutoEval最高分。
文章情報
要點
- Webwright使用終端循環,代理編寫並運行Playwright代碼,而不是逐次預測瀏覽器動作。
- GPT-5.4在Online-Mind2Web上達到86.7%(100步預算),在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%提高26.6個百分點。
- 整個框架約1000行代碼,三個模塊,無多智能體編排。
- Qwen3.5-9B在配備預構建工具腳本後在Online-Mind2Web困難子集上達到66.2%。
為甚麼重要
這條新聞值得關注,因為Webwright使用終端循環,代理編寫並運行Playwright代碼,而不是逐次預測瀏覽器動作。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
當前大多數Web代理以逐次動作的方式驅動瀏覽器:模型接收當前頁面狀態(截圖或DOM文本),預測下一步點擊、按鍵或滾動。這種設計在語言模型推理能力有限時是合理的,但隨着模型編寫和調試代碼能力的增強,這種剛性循環反而成為約束。
微軟研究院AI前沿實驗室構建了不同方法。他們的新開源框架Webwright賦予代理一個終端,而非有狀態的瀏覽器會話。代理編寫Playwright代碼來控制瀏覽器,運行bash命令,檢查日誌,並迭代改進腳本。Playwright是微軟開源的瀏覽器自動化庫,支持編程控制Chromium、Firefox和WebKit。
Webwright將代理與瀏覽器分離,將瀏覽器視為代理在編寫程序過程中可以啓動、檢查和丟棄的工具。持久化的工件不是瀏覽器會話,而是本地工作區中的代碼和日誌。這與開發人員編寫RPA腳本的模式相同:一次性編寫腳本,可重複運行、調整和共享。系統包含三個核心組件:Runner(約150行代碼)、Model Endpoint(約550行)和終端Environment(約300行)。沒有多智能體編排或複雜的規劃層次,只有一個智能體循環。所有中間代碼、日誌、截圖和結果都存儲在工作區中,便於檢查每個運行。
智能體循環工作方式如下:Runner將當前上下文發送給模型,模型返回一個思考塊和一個shell命令。該命令在Environment中運行,返回終端輸出、日誌、截圖或錯誤回溯。這些觀察結果放回上下文,循環繼續。編碼代理可以自然地表達多步交互,如選擇日期或填寫整個表單,作為緊湊程序。循環、函數和抽象使代理能夠泛化到類似任務,而無需重複預測相似的低級步驟序列。
兩個核心工程挑戰是過早完成和上下文爆炸。對於過早完成,他們添加了一個門控:代理必須生成自我反思配置,在新文件夾中運行最終腳本幷包含日誌和截圖,然後通過自我反思判斷輸出成功或失敗,之後才發出完成標誌。否則標誌被丟棄並重試。對於上下文長度,長編碼軌跡會迅速超出上下文限制,因此他們每20步將歷史壓縮為單個摘要。
基準測試結果:Webwright在Online-Mind2Web(300個任務,136個常用網站)上使用GPT-5.4達到86.67%的總體準確率,是開源方案中AutoEval最高分。Claude Opus 4.7達到84.7%,但在困難任務上(N=100步)表現更好(80.5% vs 76.6%)。他們還重現了GPT-5.4在傳統截圖基礎代理中的基線,Webwright在所有三個難度類別上取得實質性提升,凸顯了代碼驅動終端方法相比逐步座標預測的優勢。在Odysseys長期瀏覽任務基準上,任務平均指令272.3詞,2026年4月排行榜上最佳模型Opus 4.6得分為44.5。Webwright powered by GPT-5.4達到60.1%,相對改進35.1%,相比基礎GPT-5.4的33.5%相對提升79.4%(絕對提升26.6個百分點)。
成本分析:Claude Opus 4.7每任務平均步數更少(21.9步 vs 26.3步),但定價更高(輸入$5 vs $2.5每百萬token,輸出$25 vs $15),導致平均每任務成本更高($6.09 vs $2.37)。前50步達到82%準確率,後50步增加3-4個百分點。
小模型性能:研究團隊還在Online-Mind2Web困難子集測試了Qwen3.5-9B。當任務配備預構建可複用工具腳本時,Qwen3.5-9B在擁有五個以上工具的網站上達到66.2%,表明更小、成本更低的模型在配合預建工具庫時可以處理複雜Web任務。
Webwright約1000行代碼,三個模塊,無隱藏編排。它支持OpenAI、Anthropic、OpenRouter後端,腳本可複用於Claude Code、Codex、OpenClaw。安裝需Python 3.10+、Chromium、API密鑰。開源地址:github.com/microsoft/Webwright。