DeepSeek Flash 颠覆了智能代理产品的经济模式
DeepSeek Flash 通过提供廉价、快速、纯文本的代码生成模型,打破了开发者与大型模型实验室之间不合理的定价关系。它使得智能代理的构建者能够从依赖昂贵的多模态 API 转向使用开源模型作为编译器,大幅降低成本并重构了浏览器代理的架构。
DeepSeek Flash 的出现正在从根本上改变智能代理产品的经济格局。长期以来,开发者与大型模型实验室之间存在一种对抗关系:开发者支付高昂的 API 费用,而这些利润却被实验室用来补贴自己的应用程序、代理工具和消费者订阅服务。这意味着,如果你在构建 AI IDE、浏览器代理、支持代理或工作流产品,你实际上在资助那些试图取代你的公司。
这种不合理的交易在智能代理市场一直存在:使用最好的封闭模型,支付税款,然后看着同一家实验室推出与你竞争的产品。DeepSeek Flash 打破了这种格局。它并非因为是最聪明的模型,而是因为它精准地击中了智能代理产品长期以来的痛点:廉价、快速、纯文本的代码生成。
DeepSeek V4 Flash 是开放的、廉价的、具有长上下文能力,并且在代码方面足够强大,使得“捆绑”再次成为护城河。一旦模型能够将浏览器工作编译为可执行代码,推理提供商就开始在托管上展开价格战,每个非最先进的模型账单都变得可选。据报道,就连微软也在考虑将 DeepSeek 用于 Copilot Cowork,因为其代理定价正转向基于使用量的模式。
两年来,默认的浏览器代理栈一直荒谬地运行着:截图 -> 大语言模型 -> 点击 -> 截图 -> 大语言模型 -> 输入 -> 截图 -> 大语言模型 -> 重复。这种架构不仅将模型用于判断,还将其视为运行时环境。这对 API 账单有利,但对代理产品却是灾难。简单来说,开发者被榨取了运行时费用,而非智能费用。大型实验室可以向外部构建者收取每轮代理循环的溢价 API 费用,同时补贴自己的第一方代理体验。如果你的代理需要 80 次模型调用来完成一个工作流,那不是定价模型的缺陷,而是商业模式本身。
DeepSeek 推翻了这种模式。一旦一个廉价的文本/代码模型能够一次性写出计划,并且浏览器捆绑能够本地执行该计划,前沿 API 的护城河就大大缩小了。模型不必成为工人,它可以成为编译器。这正是我们新架构 Retriever 背后的真正解锁:DOM + 工具 + 意图 -> DeepSeek Flash -> JavaScript 计划 -> rtrvr.* 捆绑 -> 浏览器操作。
代码即计划改变了一切。一个原本需要 40 到 100 次模型调用的工作流,现在可以变成一次规划调用、几次有针对性的语义提取,以及普通的 JavaScript 以机器速度执行枯燥的工作。对于 Retriever 来说,将热路径切换到 DeepSeek Flash 带来了超过 100 倍的成本降低,同时保持了所需的实际浏览器代理性能。
这不仅仅是更便宜的模型替换,而是每个代理捆绑构建者的新谈判地位。我们做出了五个架构上的赌注:文本优于截图,代码优于工具调用记录,捆绑即产品,经过身份验证的浏览器即运行时,截图作为后备而非税款。DeepSeek Flash 使这种架构变得足够廉价,成为默认路径。
我对任何构建代理的人的建议是:重写你的捆绑,使其默认以文本为中心,并通过可执行代码调用。模型应该根据你的能力生成程序,而不是监控每一次循环迭代。旧的浏览器代理循环是瓶颈。一个普通的浏览器代理是这样工作的: while not done: 观察页面 -> 大语言模型生成动作 -> 执行工具。这种构建简单但运行残酷。以查找定价页面为例,工具循环代理需要为每个标签页支付模型调用来提取和追加数据,而代码方案则是一次循环写入,本地执行。
DeepSeek 打破了实验室税款。代理捆绑不需要在热路径中使用昂贵的模型,它们需要一个能够读取紧凑状态、写出可靠代码并迅速退出的模型。这就是为什么 DeepSeek Flash 如此重要:它改变了默认假设,从“使用最昂贵的多模态模型直到单位经济受损”转变为“使用廉价的开放代码规划器,然后让捆绑执行”。
旧的护城河是:更好的模型 -> 更多工具调用成功 -> 溢价 API 定价。新的护城河是:更好的捆绑 -> 更少的模型调用 -> 廉价模型变得足够好。这对大型实验室来说是残酷的逆转。如果代理运行时是一项漫长的大语言模型对话,前沿提供商掌握着你的利润;如果运行时是一个捆绑,模型只编译计划,那么性价比胜出。最好的代理栈开始看起来不像“每一步都租用最大的模型”,而更像“使用能写出正确程序的最廉价模型”。
DeepSeek Flash 在浏览器代理最耗钱的地方削弱了 API 税款。这就是为什么开放权重对代理如此重要:一旦模型在捆绑代码上足够好,托管就变成商品优化问题。提供商在延迟、批处理、量化、缓存行为、地理位置和价格上竞争,代理公司不再受制于实验室的产品策略。
缓存文本是缺失的倍增器。对于纯文本浏览器代理有一个公平的批评:便宜并不自动意味着快速。但如果你的架构每一步都向模型输入 30,000 个标记的扁平化 DOM,你可以赢得账单但失去用户。文本的真正优势在于可以被缓存、切片和执行。DeepSeek 的缓存输入路径是隐藏功能:在官方 API 上,V4 Flash 缓存命中输入的价格约为每百万标记 0.0028 美元。更重要的是,代理捆绑的稳定部分正是那些缓存良好的部分。截图没有同样的缓存故事,而文本则不同。
“纯文本”作为更便宜的提示格式和“纯文本”作为执行架构是有区别的。错误的文本代理每一步都发送整个页面,正确的文本代理发送足够的页面状态来生成代码,缓存稳定前缀,然后让代码以字符串和结构化对象操作 DOM。所以,是的,测量每步延迟,但同时也要测量每成功运行的模型调用次数、缓存命中率、每步上下文增长和端到端任务时间。代码即计划改善了所有这些指标,因为它首先将循环从模型中移除。
100 倍的提升是架构性的。这不是说 DeepSeek 神奇地便宜 100 倍,而是成本曲线因为四个乘数同时移动而改变:成本 = 调用次数 * 上下文大小 * 未缓存比例 * 模型价格。我们通过将工作流编译为代码减少了调用次数,通过使用 DOM/文本而不是截图减少了上下文大小,通过重用稳定文本前缀减少了未缓存比例,通过将热路径移至 DeepSeek Flash 降低了模型价格。对于旧代理需要 40 到 100 次模型调用而新代理只需要一次规划调用加几次语义提取的任务,端到端推理成本可以下降大约两个数量级。速度也发生了变化:工具循环本质上是串行的,而代码可以迭代、过滤、批处理、重试、去重并写入输出,无需在每个步骤都向模型请求许可。这比基准测试更重要。一个演示可能花费 80 次模型调用来完成一次结账,但一个产品不能让用户在每次同步 500 行数据时都经历 80 次模型调用。