WebMCP為何令人興奮
WebMCP是一項開放的Web標準,允許網站向瀏覽器代理暴露結構化的可調用工具,替代了傳統的像素點擊和DOM抓取方式,大幅提升代理的可靠性和效率。本文介紹了WebMCP的核心概念、兩種API(聲明式和命令式)、認證突破以及實際用例。
WebMCP(Web Model Context Protocol)是一項旨在徹底改變瀏覽器AI代理工作方式的開放Web標準。過去,瀏覽器代理通過截屏或DOM抓取來理解網頁,每次點擊都依賴像素級的識別,容易因CSS變化、動畫或懶加載而失敗。WebMCP的提出解決了這一根本性的協議問題,讓網站能夠主動向代理暴露結構化的可調用工具,從而消除代理的猜測過程。
WebMCP由Google和Microsoft聯合開發,其規範草案於2026年2月由W3C Web機器學習社區組發佈,編輯包括Microsoft的Brandon Walderman和Google的Khushal Sagar與Dominic Farolino。Google在2026年5月21日的Google I/O大會上宣佈了WebMCP的原始試用,隨後Chrome 149默認啓用該功能,面向真實流量。
WebMCP的核心機制圍繞“工具”展開。網站通過document.modelContext接口註冊命名、類型化的JavaScript函數或帶註釋的HTML表單。瀏覽器代理可以主動發現這些工具,瞭解其用途和JSON Schema定義輸入輸出,並直接調用,而非模擬鼠標點擊。這類似於給代理一個遙控器,而非讓它用手指戳電視屏幕。
WebMCP提供三大能力:發現(標準方式註冊工具)、JSON Schema(明確輸入輸出定義)、狀態(工具可動態註冊和註銷)。這彌補了Anthropic的MCP(服務器到服務器)和Agent-to-Agent(A2A)協議之間的空白,專注於用户當前所在的瀏覽器頁面層。
WebMCP提供兩種API:聲明式API和命令式API。聲明式API適用於HTML表單,只需在現有表單元素上添加toolname和tooldescription屬性,瀏覽器自動將其轉為代理可調用的工具。例如,一個支持請求表單通過兩個屬性即可被代理識別,用户仍可看到表單內容。命令式API則適用於動態工具、JavaScript驅動的交互和依賴狀態的場景。開發者通過document.modelContext.registerTool()註冊工具,指定名稱、描述、輸入Schema和執行函數。工具也可通過AbortController動態註銷,適合單頁應用。
WebMCP在認證方面實現了突破。傳統MCP集成需要為每個服務單獨設置OAuth流程,而WebMCP在瀏覽器內運行,直接繼承用户已有的會話cookie。代理只能執行用户有權執行的操作,無法提升權限或訪問其他用户數據。安全指南明確指示,agentInvoked布爾值僅作為信號,而非憑據。
實際用例方面,以旅行預訂為例:沒有WebMCP時,代理需要逐個識別表單字段、日期選擇器等,步驟複雜且易出錯。有了WebMCP,旅行網站註冊一個book_flight工具,代理直接傳入結構化參數即可完成搜索,無需與UI交互。
總之,WebMCP將解釋負擔從代理轉移到網站,讓代理變得可靠、高效。對於任何構建公共Web應用的開發者,這項技術值得立即關注。