2026-05-24 16:56 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微軟研究院發佈Webwright：一個終端原生Web代理框架，在Odysseys上達到60.1%，比基礎GPT-5.4的33.5%大幅提升

微軟研究院推出Webwright，一個終端原生瀏覽器代理框架，用可複用的Playwright腳本替代逐次點擊的Web自動化。通過單個智能體循環和約1000行代碼，基於GPT-5.4的Webwright在長期任務基準Odysseys上達到60.1%，在Online-Mind2Web上達到86.7%，是開源方案中AutoEval最高分。

來源MarkTechPost作者: Asif Razzaq

當前大多數Web代理以逐次動作的方式驅動瀏覽器：模型接收當前頁面狀態（截圖或DOM文本），預測下一步點擊、按鍵或滾動。這種設計在語言模型推理能力有限時是合理的，但隨着模型編寫和調試代碼能力的增強，這種剛性循環反而成為約束。

微軟研究院AI前沿實驗室構建了不同方法。他們的新開源框架Webwright賦予代理一個終端，而非有狀態的瀏覽器會話。代理編寫Playwright代碼來控制瀏覽器，運行bash命令，檢查日誌，並迭代改進腳本。Playwright是微軟開源的瀏覽器自動化庫，支持編程控制Chromium、Firefox和WebKit。

Webwright將代理與瀏覽器分離，將瀏覽器視為代理在編寫程序過程中可以啓動、檢查和丟棄的工具。持久化的工件不是瀏覽器會話，而是本地工作區中的代碼和日誌。這與開發人員編寫RPA腳本的模式相同：一次性編寫腳本，可重複運行、調整和共享。系統包含三個核心組件：Runner（約150行代碼）、Model Endpoint（約550行）和終端Environment（約300行）。沒有多智能體編排或複雜的規劃層次，只有一個智能體循環。所有中間代碼、日誌、截圖和結果都存儲在工作區中，便於檢查每個運行。

智能體循環工作方式如下：Runner將當前上下文發送給模型，模型返回一個思考塊和一個shell命令。該命令在Environment中運行，返回終端輸出、日誌、截圖或錯誤回溯。這些觀察結果放回上下文，循環繼續。編碼代理可以自然地表達多步交互，如選擇日期或填寫整個表單，作為緊湊程序。循環、函數和抽象使代理能夠泛化到類似任務，而無需重複預測相似的低級步驟序列。

兩個核心工程挑戰是過早完成和上下文爆炸。對於過早完成，他們添加了一個門控：代理必須生成自我反思配置，在新文件夾中運行最終腳本幷包含日誌和截圖，然後通過自我反思判斷輸出成功或失敗，之後才發出完成標誌。否則標誌被丟棄並重試。對於上下文長度，長編碼軌跡會迅速超出上下文限制，因此他們每20步將歷史壓縮為單個摘要。

基準測試結果：Webwright在Online-Mind2Web（300個任務，136個常用網站）上使用GPT-5.4達到86.67%的總體準確率，是開源方案中AutoEval最高分。Claude Opus 4.7達到84.7%，但在困難任務上（N=100步）表現更好（80.5% vs 76.6%）。他們還重現了GPT-5.4在傳統截圖基礎代理中的基線，Webwright在所有三個難度類別上取得實質性提升，凸顯了代碼驅動終端方法相比逐步座標預測的優勢。在Odysseys長期瀏覽任務基準上，任務平均指令272.3詞，2026年4月排行榜上最佳模型Opus 4.6得分為44.5。Webwright powered by GPT-5.4達到60.1%，相對改進35.1%，相比基礎GPT-5.4的33.5%相對提升79.4%（絕對提升26.6個百分點）。

成本分析：Claude Opus 4.7每任務平均步數更少（21.9步 vs 26.3步），但定價更高（輸入$5 vs $2.5每百萬token，輸出$25 vs $15），導致平均每任務成本更高（$6.09 vs $2.37）。前50步達到82%準確率，後50步增加3-4個百分點。

小模型性能：研究團隊還在Online-Mind2Web困難子集測試了Qwen3.5-9B。當任務配備預構建可複用工具腳本時，Qwen3.5-9B在擁有五個以上工具的網站上達到66.2%，表明更小、成本更低的模型在配合預建工具庫時可以處理複雜Web任務。

Webwright約1000行代碼，三個模塊，無隱藏編排。它支持OpenAI、Anthropic、OpenRouter後端，腳本可複用於Claude Code、Codex、OpenClaw。安裝需Python 3.10+、Chromium、API密鑰。開源地址：github.com/microsoft/Webwright。