人工智能竞赛为何转向速度
2026年初,人工智能竞赛从模型智能转向推理速度。谷歌、Anthropic和OpenAI等主要实验室发布了更快的编码模型。快速推理加速了模型开发和产品迭代,成为AI进步和商业收入的关键因素。
2025年的大部分时间里,AI竞赛的焦点是模型智能。然而,在过去的三个月里,竞赛的焦点发生了转变。模型智能仍然至关重要,但在每一个前沿实验室中,推理速度已成为一个新的紧迫焦点。谷歌发布了Gemini 3 Flash,该模型专为智能体编码而设计,运行速度比Gemini 3 Pro快3倍。Anthropic发布了速度提升2.5倍的Claude Opus 4.6版本,用于对速度敏感的编码场景。OpenAI宣布与Cerebras合作,推出GPT-5.3-Codex-Spark,运行速度超过每秒1200个token,成为迄今最快的OpenAI编码模型。
为什么推理速度突然变得如此重要?因为模型生成token的速度现在直接影响着主要实验室的模型迭代速度,以及更广泛经济中的软件构建速度。今年二月,OpenAI和Anthropic都透露,他们正在使用自己的编码模型来构建下一版本的AI模型。这是一个非同寻常的披露。在OpenAI的博文《利用工程》中,他们写道:“GPT-5.3-Codex是我们的第一个在创造自身过程中发挥了关键作用的模型。Codex团队使用早期版本来调试自己的训练、管理自己的部署、诊断测试结果和评估——我们的团队对Codex加速自身开发的能力感到震惊。”该博文描述了一个由三名工程师组成的团队,使用Codex在五个月内产生了百万行生产代码——以手工编写所需时间的大约十分之一构建了产品。人类从未手动编写过一行代码。他们提示智能体,审查其拉取请求,并排除障碍。正如OpenAI所说:“人类掌舵。智能体执行。”
Anthropic的情况类似。当他们发布速度提升2.5倍的Claude Opus 4.6版本时,他们承认这已经是他们内部一直在使用的速度。Anthropic的Claude Code负责人Boris Cherny公开表示,两个多月来他所有的代码都是由AI编写的,并且Claude Code自身约90%的代码库是由Claude Code自己编写的。简而言之,Anthropic一直在使用自己的编码工具来构建他们的下一代产品,而直到最近,他们才将自己模型的最快版本留作己用。
其影响深远而清晰——软件开发中的递归时刻已经到来,在推理方面,token输出越快,下一个产品的发布就越快。每个实验室都在竞相构建更强大的模型。过去,谁拥有最大的训练集群谁就能率先到达终点。现在,在其他条件相同的情况下,谁在模型开发过程中使用最快的推理,谁就能率先越过终点线。推理速度现在已成为开发下一代前沿模型,乃至AGI的关键路径。
如果快速推理真的如此重要,那么它应该非常有价值。验证这一点的一种方法是看看Anthropic如何根据其模型的智能和速度来定价。Anthropic的旗舰模型Opus 4.6的定价比其中端模型Sonnet 4.6高出66%。而运行速度快2.5倍的Opus 4.6 Fast的价格是基础模型的6倍。Anthropic的定价肯定了速度现在足够重要,值得拥有自己的类别,而且就价值而言,它甚至可能比模型智能的提升更有价值。
推理速度不仅对OpenAI和Anthropic具有战略意义。对于任何构建和交付软件产品的公司来说,它都具有战略意义。考虑两家公司——A公司和B公司——都在构建一个新的AI驱动的CRM。A公司使用顶级前沿模型,六周完成开发。B公司拥有相同的想法、团队人才和资金。但它使用运行快速推理的前沿模型,仅用三周就发布了第一个版本。在接下来的几周里,B公司根据用户反馈迅速迭代。产品的第三版迅速走红,在第八周达到了1000万美元的年度经常性收入。与此同时,A公司还在从第一个产品版本中学习。在这种情况下,快速推理直接加速了产品迭代和创收时间。
上面的例子听起来可能有些不可思议,但它已经在现实经济中发生了。在Stripe的2025年度信中,这家支付公司透露,在发布后三个月内达到1000万美元ARR的公司数量比2024年翻了一番。这几乎肯定是由智能体编码的日益采用所驱动的。我们预计2026年将看到更显著的加速,因为开发者将使用更强大的编码智能体,其运行速度比2025年高出一个数量级。
上述模式不仅对初创公司成立,对企业也是如此。2026年1月对于各个阶段和规模的SaaS公司来说是一个清算时刻。团队正在争先恐后地重建他们的产品堆栈和收入模式。那些拥有最快、最强大的编码智能体的公司更有可能在后智能体经济中找到立足点。
速度一直是数字经济的驱动力。在1990年代,公司购买他们能负担得起的、最快的计算机。在2000年代,他们争相获得最快的互联网连接。在AI时代,高速推理是关键基础设施。Cerebras从一开始就专注于速度。纵观行业的发展轨迹——模型构建模型、编码智能体取代手动开发、市场切入速度成为token吞吐量的函数——很明显,速度在未来将更加重要。