AI News HubLIVE
站内改写2 分钟阅读

WebMCP为何令人兴奋

WebMCP是一项开放的Web标准,允许网站向浏览器代理暴露结构化的可调用工具,替代了传统的像素点击和DOM抓取方式,大幅提升代理的可靠性和效率。本文介绍了WebMCP的核心概念、两种API(声明式和命令式)、认证突破以及实际用例。

来源KDnuggets作者: Shittu Olumide

WebMCP(Web Model Context Protocol)是一项旨在彻底改变浏览器AI代理工作方式的开放Web标准。过去,浏览器代理通过截屏或DOM抓取来理解网页,每次点击都依赖像素级的识别,容易因CSS变化、动画或懒加载而失败。WebMCP的提出解决了这一根本性的协议问题,让网站能够主动向代理暴露结构化的可调用工具,从而消除代理的猜测过程。

WebMCP由Google和Microsoft联合开发,其规范草案于2026年2月由W3C Web机器学习社区组发布,编辑包括Microsoft的Brandon Walderman和Google的Khushal Sagar与Dominic Farolino。Google在2026年5月21日的Google I/O大会上宣布了WebMCP的原始试用,随后Chrome 149默认启用该功能,面向真实流量。

WebMCP的核心机制围绕“工具”展开。网站通过document.modelContext接口注册命名、类型化的JavaScript函数或带注释的HTML表单。浏览器代理可以主动发现这些工具,了解其用途和JSON Schema定义输入输出,并直接调用,而非模拟鼠标点击。这类似于给代理一个遥控器,而非让它用手指戳电视屏幕。

WebMCP提供三大能力:发现(标准方式注册工具)、JSON Schema(明确输入输出定义)、状态(工具可动态注册和注销)。这弥补了Anthropic的MCP(服务器到服务器)和Agent-to-Agent(A2A)协议之间的空白,专注于用户当前所在的浏览器页面层。

WebMCP提供两种API:声明式API和命令式API。声明式API适用于HTML表单,只需在现有表单元素上添加toolname和tooldescription属性,浏览器自动将其转为代理可调用的工具。例如,一个支持请求表单通过两个属性即可被代理识别,用户仍可看到表单内容。命令式API则适用于动态工具、JavaScript驱动的交互和依赖状态的场景。开发者通过document.modelContext.registerTool()注册工具,指定名称、描述、输入Schema和执行函数。工具也可通过AbortController动态注销,适合单页应用。

WebMCP在认证方面实现了突破。传统MCP集成需要为每个服务单独设置OAuth流程,而WebMCP在浏览器内运行,直接继承用户已有的会话cookie。代理只能执行用户有权执行的操作,无法提升权限或访问其他用户数据。安全指南明确指示,agentInvoked布尔值仅作为信号,而非凭据。

实际用例方面,以旅行预订为例:没有WebMCP时,代理需要逐个识别表单字段、日期选择器等,步骤复杂且易出错。有了WebMCP,旅行网站注册一个book_flight工具,代理直接传入结构化参数即可完成搜索,无需与UI交互。

总之,WebMCP将解释负担从代理转移到网站,让代理变得可靠、高效。对于任何构建公共Web应用的开发者,这项技术值得立即关注。