WebMCP為何令人興奮
WebMCP是一項開放的Web標準,允許網站向瀏覽器代理暴露結構化的可呼叫工具,替代了傳統的畫素點選和DOM抓取方式,大幅提升代理的可靠性和效率。本文介紹了WebMCP的核心概念、兩種API(宣告式和命令式)、認證突破以及實際用例。
WebMCP(Web Model Context Protocol)是一項旨在徹底改變瀏覽器AI代理工作方式的開放Web標準。過去,瀏覽器代理透過截圖或DOM抓取來理解網頁,每次點選都依賴畫素級的識別,容易因CSS變化、動畫或懶載入而失敗。WebMCP的提出解決了這一根本性的協議問題,讓網站能夠主動向代理暴露結構化的可呼叫工具,從而消除代理的猜測過程。
WebMCP由Google和Microsoft聯合開發,其規範草案於2026年2月由W3C Web機器學習社群組釋出,編輯包括Microsoft的Brandon Walderman和Google的Khushal Sagar與Dominic Farolino。Google在2026年5月21日的Google I/O大會上宣佈了WebMCP的原始試用,隨後Chrome 149預設啟用該功能,面向真實流量。
WebMCP的核心機制圍繞“工具”展開。網站透過document.modelContext介面註冊命名、型別化的JavaScript函式或帶註釋的HTML表單。瀏覽器代理可以主動發現這些工具,瞭解其用途和JSON Schema定義輸入輸出,並直接呼叫,而非模擬滑鼠點選。這類似於給代理一個遙控器,而非讓它用手指戳電視螢幕。
WebMCP提供三大能力:發現(標準方式註冊工具)、JSON Schema(明確輸入輸出定義)、狀態(工具可動態註冊和登出)。這彌補了Anthropic的MCP(伺服器到伺服器)和Agent-to-Agent(A2A)協議之間的空白,專注於使用者當前所在的瀏覽器頁面層。
WebMCP提供兩種API:宣告式API和命令式API。宣告式API適用於HTML表單,只需在現有表單元素上新增toolname和tooldescription屬性,瀏覽器自動將其轉為代理可呼叫的工具。例如,一個支援請求表單透過兩個屬性即可被代理識別,使用者仍可看到表單內容。命令式API則適用於動態工具、JavaScript驅動的互動和依賴狀態的場景。開發者透過document.modelContext.registerTool()註冊工具,指定名稱、描述、輸入Schema和執行函式。工具也可透過AbortController動態登出,適合單頁應用。
WebMCP在認證方面實現了突破。傳統MCP整合需要為每個服務單獨設定OAuth流程,而WebMCP在瀏覽器內執行,直接繼承使用者已有的會話cookie。代理只能執行使用者有權執行的操作,無法提升許可權或訪問其他使用者資料。安全指南明確指示,agentInvoked布林值僅作為訊號,而非憑據。
實際用例方面,以旅行預訂為例:沒有WebMCP時,代理需要逐個識別表單欄位、日期選擇器等,步驟複雜且易出錯。有了WebMCP,旅行網站註冊一個book_flight工具,代理直接傳入結構化引數即可完成搜尋,無需與UI互動。
總之,WebMCP將解釋負擔從代理轉移到網站,讓代理變得可靠、高效。對於任何構建公共Web應用的開發者,這項技術值得立即關注。