2026-05-15 10:37 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

人工智能竞赛为何转向速度

2026年初，人工智能竞赛从模型智能转向推理速度。谷歌、Anthropic和OpenAI等主要实验室发布了更快的编码模型。快速推理加速了模型开发和产品迭代，成为AI进步和商业收入的关键因素。

2025年的大部分时间里，AI竞赛的焦点是模型智能。然而，在过去的三个月里，竞赛的焦点发生了转变。模型智能仍然至关重要，但在每一个前沿实验室中，推理速度已成为一个新的紧迫焦点。谷歌发布了Gemini 3 Flash，该模型专为智能体编码而设计，运行速度比Gemini 3 Pro快3倍。Anthropic发布了速度提升2.5倍的Claude Opus 4.6版本，用于对速度敏感的编码场景。OpenAI宣布与Cerebras合作，推出GPT-5.3-Codex-Spark，运行速度超过每秒1200个token，成为迄今最快的OpenAI编码模型。

为什么推理速度突然变得如此重要？因为模型生成token的速度现在直接影响着主要实验室的模型迭代速度，以及更广泛经济中的软件构建速度。今年二月，OpenAI和Anthropic都透露，他们正在使用自己的编码模型来构建下一版本的AI模型。这是一个非同寻常的披露。在OpenAI的博文《利用工程》中，他们写道：“GPT-5.3-Codex是我们的第一个在创造自身过程中发挥了关键作用的模型。Codex团队使用早期版本来调试自己的训练、管理自己的部署、诊断测试结果和评估——我们的团队对Codex加速自身开发的能力感到震惊。”该博文描述了一个由三名工程师组成的团队，使用Codex在五个月内产生了百万行生产代码——以手工编写所需时间的大约十分之一构建了产品。人类从未手动编写过一行代码。他们提示智能体，审查其拉取请求，并排除障碍。正如OpenAI所说：“人类掌舵。智能体执行。”

Anthropic的情况类似。当他们发布速度提升2.5倍的Claude Opus 4.6版本时，他们承认这已经是他们内部一直在使用的速度。Anthropic的Claude Code负责人Boris Cherny公开表示，两个多月来他所有的代码都是由AI编写的，并且Claude Code自身约90%的代码库是由Claude Code自己编写的。简而言之，Anthropic一直在使用自己的编码工具来构建他们的下一代产品，而直到最近，他们才将自己模型的最快版本留作己用。

其影响深远而清晰——软件开发中的递归时刻已经到来，在推理方面，token输出越快，下一个产品的发布就越快。每个实验室都在竞相构建更强大的模型。过去，谁拥有最大的训练集群谁就能率先到达终点。现在，在其他条件相同的情况下，谁在模型开发过程中使用最快的推理，谁就能率先越过终点线。推理速度现在已成为开发下一代前沿模型，乃至AGI的关键路径。

如果快速推理真的如此重要，那么它应该非常有价值。验证这一点的一种方法是看看Anthropic如何根据其模型的智能和速度来定价。Anthropic的旗舰模型Opus 4.6的定价比其中端模型Sonnet 4.6高出66%。而运行速度快2.5倍的Opus 4.6 Fast的价格是基础模型的6倍。Anthropic的定价肯定了速度现在足够重要，值得拥有自己的类别，而且就价值而言，它甚至可能比模型智能的提升更有价值。

推理速度不仅对OpenAI和Anthropic具有战略意义。对于任何构建和交付软件产品的公司来说，它都具有战略意义。考虑两家公司——A公司和B公司——都在构建一个新的AI驱动的CRM。A公司使用顶级前沿模型，六周完成开发。B公司拥有相同的想法、团队人才和资金。但它使用运行快速推理的前沿模型，仅用三周就发布了第一个版本。在接下来的几周里，B公司根据用户反馈迅速迭代。产品的第三版迅速走红，在第八周达到了1000万美元的年度经常性收入。与此同时，A公司还在从第一个产品版本中学习。在这种情况下，快速推理直接加速了产品迭代和创收时间。

上面的例子听起来可能有些不可思议，但它已经在现实经济中发生了。在Stripe的2025年度信中，这家支付公司透露，在发布后三个月内达到1000万美元ARR的公司数量比2024年翻了一番。这几乎肯定是由智能体编码的日益采用所驱动的。我们预计2026年将看到更显著的加速，因为开发者将使用更强大的编码智能体，其运行速度比2025年高出一个数量级。

上述模式不仅对初创公司成立，对企业也是如此。2026年1月对于各个阶段和规模的SaaS公司来说是一个清算时刻。团队正在争先恐后地重建他们的产品堆栈和收入模式。那些拥有最快、最强大的编码智能体的公司更有可能在后智能体经济中找到立足点。

速度一直是数字经济的驱动力。在1990年代，公司购买他们能负担得起的、最快的计算机。在2000年代，他们争相获得最快的互联网连接。在AI时代，高速推理是关键基础设施。Cerebras从一开始就专注于速度。纵观行业的发展轨迹——模型构建模型、编码智能体取代手动开发、市场切入速度成为token吞吐量的函数——很明显，速度在未来将更加重要。