2026-06-23 22:00 UTC+8站内改写2 分钟阅读更新: 2026-06-23 22:10 UTC+8

WebMCP为何令人兴奋

WebMCP是一项开放的Web标准，允许网站向浏览器代理暴露结构化的可调用工具，替代了传统的像素点击和DOM抓取方式，大幅提升代理的可靠性和效率。本文介绍了WebMCP的核心概念、两种API（声明式和命令式）、认证突破以及实际用例。

来源KDnuggets作者: Shittu Olumide

文章情报

工程师进阶

要点

WebMCP是浏览器原生代理协议，由Google和Microsoft共同开发，2026年2月发布草案，Chrome 149已支持。
提供声明式（HTML表单）和命令式（JavaScript）两种API，使网站能明确告诉代理可用工具及其输入输出。
利用浏览器现有会话实现认证，代理自动继承用户权限，无需额外OAuth流程，且不提升权限。
相比传统方法，结构化方法可减少67%的任务错误并提高45%的完成率。

为什么重要

这条新闻值得关注，因为WebMCP是浏览器原生代理协议，由Google和Microsoft共同开发，2026年2月发布草案，Chrome 149已支持。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

WebMCP（Web Model Context Protocol）是一项旨在彻底改变浏览器AI代理工作方式的开放Web标准。过去，浏览器代理通过截屏或DOM抓取来理解网页，每次点击都依赖像素级的识别，容易因CSS变化、动画或懒加载而失败。WebMCP的提出解决了这一根本性的协议问题，让网站能够主动向代理暴露结构化的可调用工具，从而消除代理的猜测过程。

WebMCP由Google和Microsoft联合开发，其规范草案于2026年2月由W3C Web机器学习社区组发布，编辑包括Microsoft的Brandon Walderman和Google的Khushal Sagar与Dominic Farolino。Google在2026年5月21日的Google I/O大会上宣布了WebMCP的原始试用，随后Chrome 149默认启用该功能，面向真实流量。

WebMCP的核心机制围绕“工具”展开。网站通过document.modelContext接口注册命名、类型化的JavaScript函数或带注释的HTML表单。浏览器代理可以主动发现这些工具，了解其用途和JSON Schema定义输入输出，并直接调用，而非模拟鼠标点击。这类似于给代理一个遥控器，而非让它用手指戳电视屏幕。

WebMCP提供三大能力：发现（标准方式注册工具）、JSON Schema（明确输入输出定义）、状态（工具可动态注册和注销）。这弥补了Anthropic的MCP（服务器到服务器）和Agent-to-Agent（A2A）协议之间的空白，专注于用户当前所在的浏览器页面层。

WebMCP提供两种API：声明式API和命令式API。声明式API适用于HTML表单，只需在现有表单元素上添加toolname和tooldescription属性，浏览器自动将其转为代理可调用的工具。例如，一个支持请求表单通过两个属性即可被代理识别，用户仍可看到表单内容。命令式API则适用于动态工具、JavaScript驱动的交互和依赖状态的场景。开发者通过document.modelContext.registerTool()注册工具，指定名称、描述、输入Schema和执行函数。工具也可通过AbortController动态注销，适合单页应用。

WebMCP在认证方面实现了突破。传统MCP集成需要为每个服务单独设置OAuth流程，而WebMCP在浏览器内运行，直接继承用户已有的会话cookie。代理只能执行用户有权执行的操作，无法提升权限或访问其他用户数据。安全指南明确指示，agentInvoked布尔值仅作为信号，而非凭据。

实际用例方面，以旅行预订为例：没有WebMCP时，代理需要逐个识别表单字段、日期选择器等，步骤复杂且易出错。有了WebMCP，旅行网站注册一个book_flight工具，代理直接传入结构化参数即可完成搜索，无需与UI交互。

总之，WebMCP将解释负担从代理转移到网站，让代理变得可靠、高效。对于任何构建公共Web应用的开发者，这项技术值得立即关注。