2026-05-24 16:56 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微軟研究院釋出Webwright：一個終端原生Web代理框架，在Odysseys上達到60.1%，比基礎GPT-5.4的33.5%大幅提升

微軟研究院推出Webwright，一個終端原生瀏覽器代理框架，用可複用的Playwright指令碼替代逐次點選的Web自動化。透過單個智慧體迴圈和約1000行程式碼，基於GPT-5.4的Webwright在長期任務基準Odysseys上達到60.1%，在Online-Mind2Web上達到86.7%，是開源方案中AutoEval最高分。

來源MarkTechPost作者: Asif Razzaq

當前大多數Web代理以逐次動作的方式驅動瀏覽器：模型接收當前頁面狀態（截圖或DOM文本），預測下一步點選、按鍵或滾動。這種設計在語言模型推理能力有限時是合理的，但隨著模型編寫和除錯程式碼能力的增強，這種剛性迴圈反而成為約束。

微軟研究院AI前沿實驗室構建了不同方法。他們的新開源框架Webwright賦予代理一個終端，而非有狀態的瀏覽器會話。代理編寫Playwright程式碼來控制瀏覽器，執行bash命令，檢查日誌，並迭代改進指令碼。Playwright是微軟開源的瀏覽器自動化庫，支援程式設計控制Chromium、Firefox和WebKit。

Webwright將代理與瀏覽器分離，將瀏覽器視為代理在編寫程式過程中可以啟動、檢查和丟棄的工具。持久化的工件不是瀏覽器會話，而是本地工作區中的程式碼和日誌。這與開發人員編寫RPA指令碼的模式相同：一次性編寫指令碼，可重複執行、調整和共享。系統包含三個核心元件：Runner（約150行程式碼）、Model Endpoint（約550行）和終端Environment（約300行）。沒有多智慧體編排或複雜的規劃層次，只有一個智慧體迴圈。所有中間程式碼、日誌、截圖和結果都儲存在工作區中，便於檢查每個執行。

智慧體迴圈工作方式如下：Runner將當前上下文傳送給模型，模型返回一個思考塊和一個shell命令。該命令在Environment中執行，返回終端輸出、日誌、截圖或錯誤回溯。這些觀察結果放回上下文，迴圈繼續。編碼代理可以自然地表達多步互動，如選擇日期或填寫整個表單，作為緊湊程式。迴圈、函式和抽象使代理能夠泛化到類似任務，而無需重複預測相似的低階步驟序列。

兩個核心工程挑戰是過早完成和上下文爆炸。對於過早完成，他們新增了一個門控：代理必須生成自我反思配置，在新資料夾中執行最終指令碼幷包含日誌和截圖，然後透過自我反思判斷輸出成功或失敗，之後才發出完成標誌。否則標誌被丟棄並重試。對於上下文長度，長編碼軌跡會迅速超出上下文限制，因此他們每20步將歷史壓縮為單個摘要。

基準測試結果：Webwright在Online-Mind2Web（300個任務，136個常用網站）上使用GPT-5.4達到86.67%的總體準確率，是開源方案中AutoEval最高分。Claude Opus 4.7達到84.7%，但在困難任務上（N=100步）表現更好（80.5% vs 76.6%）。他們還重現了GPT-5.4在傳統截圖基礎代理中的基線，Webwright在所有三個難度類別上取得實質性提升，凸顯了程式碼驅動終端方法相比逐步座標預測的優勢。在Odysseys長期瀏覽任務基準上，任務平均指令272.3詞，2026年4月排行榜上最佳模型Opus 4.6得分為44.5。Webwright powered by GPT-5.4達到60.1%，相對改進35.1%，相比基礎GPT-5.4的33.5%相對提升79.4%（絕對提升26.6個百分點）。

成本分析：Claude Opus 4.7每任務平均步數更少（21.9步 vs 26.3步），但定價更高（輸入$5 vs $2.5每百萬token，輸出$25 vs $15），導致平均每任務成本更高（$6.09 vs $2.37）。前50步達到82%準確率，後50步增加3-4個百分點。

小模型效能：研究團隊還在Online-Mind2Web困難子集測試了Qwen3.5-9B。當任務配備預構建可複用工具指令碼時，Qwen3.5-9B在擁有五個以上工具的網站上達到66.2%，表明更小、成本更低的模型在配合預建工具庫時可以處理複雜Web任務。

Webwright約1000行程式碼，三個模組，無隱藏編排。它支援OpenAI、Anthropic、OpenRouter後端，指令碼可複用於Claude Code、Codex、OpenClaw。安裝需Python 3.10+、Chromium、API金鑰。開源地址：github.com/microsoft/Webwright。