微軟研究院釋出Webwright:一個終端原生Web代理框架,在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%大幅提升
微軟研究院推出Webwright,一個終端原生瀏覽器代理框架,用可複用的Playwright指令碼替代逐次點選的Web自動化。透過單個智慧體迴圈和約1000行程式碼,基於GPT-5.4的Webwright在長期任務基準Odysseys上達到60.1%,在Online-Mind2Web上達到86.7%,是開源方案中AutoEval最高分。
文章情報
要點
- Webwright使用終端迴圈,代理編寫並執行Playwright程式碼,而不是逐次預測瀏覽器動作。
- GPT-5.4在Online-Mind2Web上達到86.7%(100步預算),在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%提高26.6個百分點。
- 整個框架約1000行程式碼,三個模組,無多智慧體編排。
- Qwen3.5-9B在配備預構建工具指令碼後在Online-Mind2Web困難子集上達到66.2%。
為什麼重要
這條新聞值得關注,因為Webwright使用終端迴圈,代理編寫並執行Playwright程式碼,而不是逐次預測瀏覽器動作。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
當前大多數Web代理以逐次動作的方式驅動瀏覽器:模型接收當前頁面狀態(截圖或DOM文本),預測下一步點選、按鍵或滾動。這種設計在語言模型推理能力有限時是合理的,但隨著模型編寫和除錯程式碼能力的增強,這種剛性迴圈反而成為約束。
微軟研究院AI前沿實驗室構建了不同方法。他們的新開源框架Webwright賦予代理一個終端,而非有狀態的瀏覽器會話。代理編寫Playwright程式碼來控制瀏覽器,執行bash命令,檢查日誌,並迭代改進指令碼。Playwright是微軟開源的瀏覽器自動化庫,支援程式設計控制Chromium、Firefox和WebKit。
Webwright將代理與瀏覽器分離,將瀏覽器視為代理在編寫程式過程中可以啟動、檢查和丟棄的工具。持久化的工件不是瀏覽器會話,而是本地工作區中的程式碼和日誌。這與開發人員編寫RPA指令碼的模式相同:一次性編寫指令碼,可重複執行、調整和共享。系統包含三個核心元件:Runner(約150行程式碼)、Model Endpoint(約550行)和終端Environment(約300行)。沒有多智慧體編排或複雜的規劃層次,只有一個智慧體迴圈。所有中間程式碼、日誌、截圖和結果都儲存在工作區中,便於檢查每個執行。
智慧體迴圈工作方式如下:Runner將當前上下文傳送給模型,模型返回一個思考塊和一個shell命令。該命令在Environment中執行,返回終端輸出、日誌、截圖或錯誤回溯。這些觀察結果放回上下文,迴圈繼續。編碼代理可以自然地表達多步互動,如選擇日期或填寫整個表單,作為緊湊程式。迴圈、函式和抽象使代理能夠泛化到類似任務,而無需重複預測相似的低階步驟序列。
兩個核心工程挑戰是過早完成和上下文爆炸。對於過早完成,他們新增了一個門控:代理必須生成自我反思配置,在新資料夾中執行最終指令碼幷包含日誌和截圖,然後透過自我反思判斷輸出成功或失敗,之後才發出完成標誌。否則標誌被丟棄並重試。對於上下文長度,長編碼軌跡會迅速超出上下文限制,因此他們每20步將歷史壓縮為單個摘要。
基準測試結果:Webwright在Online-Mind2Web(300個任務,136個常用網站)上使用GPT-5.4達到86.67%的總體準確率,是開源方案中AutoEval最高分。Claude Opus 4.7達到84.7%,但在困難任務上(N=100步)表現更好(80.5% vs 76.6%)。他們還重現了GPT-5.4在傳統截圖基礎代理中的基線,Webwright在所有三個難度類別上取得實質性提升,凸顯了程式碼驅動終端方法相比逐步座標預測的優勢。在Odysseys長期瀏覽任務基準上,任務平均指令272.3詞,2026年4月排行榜上最佳模型Opus 4.6得分為44.5。Webwright powered by GPT-5.4達到60.1%,相對改進35.1%,相比基礎GPT-5.4的33.5%相對提升79.4%(絕對提升26.6個百分點)。
成本分析:Claude Opus 4.7每任務平均步數更少(21.9步 vs 26.3步),但定價更高(輸入$5 vs $2.5每百萬token,輸出$25 vs $15),導致平均每任務成本更高($6.09 vs $2.37)。前50步達到82%準確率,後50步增加3-4個百分點。
小模型效能:研究團隊還在Online-Mind2Web困難子集測試了Qwen3.5-9B。當任務配備預構建可複用工具指令碼時,Qwen3.5-9B在擁有五個以上工具的網站上達到66.2%,表明更小、成本更低的模型在配合預建工具庫時可以處理複雜Web任務。
Webwright約1000行程式碼,三個模組,無隱藏編排。它支援OpenAI、Anthropic、OpenRouter後端,指令碼可複用於Claude Code、Codex、OpenClaw。安裝需Python 3.10+、Chromium、API金鑰。開源地址:github.com/microsoft/Webwright。