聊天机器人的黄昏
文章指出AI能力正以超指数速度增长,前沿模型与开源模型均加速提升。AI使用方式正从聊天机器人转向智能体,用户领域经验比职业更重要。指数级增长带来持续动荡,短期内不会稳定。
如果你感觉AI领域正在加速,那你的感觉很可能是对的。领先的美国AI实验室发布新模型的速度比以往任何时候都快(尽管政府干预阻止了Claude Fable和GPT-5.6这两个最强大模型的访问)。
但不仅仅是发布时间。证据表明,能力提升也在加速(尽管前沿依然不平坦,AI在许多方面仍然薄弱)。这一点在AI执行实际工作的能力上尤为明显。有几项评估试图衡量AI能完成多少人类工作。其中最著名的两个来自METR和英国政府官方AI安全研究所,它们估计AI单次提示所能完成的人类程序员工时。GDPval则通过专业评审比较各领域人类专家与AI的表现。所有这些指标都以超指数的速度增长。
另一个进行类似实验的组织Epoch最近发现,Opus 4.7在自主工作14小时后,能够构建一个需要2-17周人类工程工作的软件包(消耗了251美元代币)。再次说明,AI系统并非无所不能,运行成本也不总是低廉,但它们确实在以非常快的速度改进。在我自己的实验中,我发现Fable能够自主工作9小时,执行非常复杂的软件项目,而这些项目通常需要一个团队超过一周的时间才能完成。
到目前为止,我关注的是前沿模型,即那些“智能”最高的模型。它们由三家美国公司——Anthropic、OpenAI和Google制造(尽管Google已经有一段时间没有发布新模型了)。但还有第二组AI模型,通常落后前沿6-12个月,它们都来自中国。这些是开放权重模型,意味着任何人在发布后都可以使用或修改(与专有的前沿模型相反)。这使得它们的运行成本相当低廉。它们也在攀爬指数级改进曲线,尽管落后于美国模型。您可以在我的AA-Briefcase测试结果图中看到这一点,该测试模拟了一个复杂的多周咨询项目,AI需要执行多种分析。开放权重模型位于自己的指数曲线上,落后于美国封闭模型。
但抽象图表的作用有限,它们可能隐藏前沿的不平坦(以及开放权重模型虽然令人印象深刻,但并不总是像基准测试所显示的那样表现出色)。要获得真正的洞察,您需要尝试在不同用例中使用AI,并严格评估它们在您关注的领域中的表现。作为一个有趣的例子,我创建了一个测试,让AI构建一个随时间演变的港口交互模拟。您可以在[这里](https://example.com)尝试所有结果。我认为这提供了一个有趣的视角,展示模型在设计、风格方法甚至判断力方面可以有多么不同。随着系统执行越来越长的任务,这些难以基准化的因素变得更加重要。
我们使用AI的方式正在改变
随着AI能够执行越来越长的任务,人们使用AI的方式正在改变。直到最近,使用AI的主要方式是作为“共智能”。您让AI做一些事情,检查结果,然后让它执行工作的下一步。通过仔细的提示和人工关注,您可以引导AI完成复杂和长期的任务。
这种方法仍然常见且有用,但越来越多地,它不再是AI用于有价值工作的方式。长时间运行、智能且能够自我纠正的AI系统不需要持续的人工干预,它们需要不同的工作方式(这也是我即将出版的书《共存》的主题,您可能想在这里预订)。与聊天机器人不同,智能体附带了额外的机制:给AI提供工具和行动环境的“ harness”,以及为智能体构建的应用程序,如Claude Code或OpenAI的Codex。因此,AI模型已经增强的能力可以通过良好的 harness 或应用程序得到进一步提升。
因此,工作越来越多地是向智能体分配任务,而不是与聊天机器人协作。OpenAI与学术经济学家的一项联合研究显示了这一点在其组织内部发生的速度。关键是,不仅仅是程序员在使用智能体。法律、人力资源及其他非技术岗位采用智能体的速率几乎相同。OpenAI可能是工作领域其他部分未来变化的预警。
越来越多的OpenAI工作看起来像是管理AI。四分之一的OpenAI员工每周同时运行至少四个智能体。而且,随着编程由AI在专门的 harness 和应用程序中完成,其他角色也开始成为某种意义上的程序员。而且他们很擅长。另一项针对Claude Code用户的研究发现,在实际使用Claude Code执行编程任务时,软件工程师与其他职业的成功率相似。
真正重要的不是用户的职业,而是他们的专业知识。一个人拥有的领域经验越多,他们在该领域使用Claude Code的成功率就越高。更有趣的是,他们从每次提示中从Claude获得的有用输出也越多。
我们正在从一个非专家使用聊天机器人填补空白的世界,转向一个专家使用智能体完成工作的世界。而使用智能体的最佳方式是将自己视为管理者。
一个特定时刻
处于指数曲线上意味着在固定窗口内每一次变化都比前一次更大。如果您的组织在2025年冬天之前编写了AI计划,那么它描述的系统只能工作几个小时且错误率相当高。几个月后,您可以通过一次提示获得十六小时甚至更多的工作。这就是为什么AI不断让人感觉它在飞跃,尽管它只是图表上的一条曲线,我们持续将能力的稳定加倍体验为一系列冲击。我们非常不擅长从内部感受指数级变化,而我们目前正处于其中。
我认为这也比通常关于炒作的故事更好地解释了围绕AI的动荡。AI无法成为真正的网络安全威胁,直到突然之间它可以,导致政府最高层突然且临时改变政策。市场低估AI是否会威胁商业模型,直到突然之间它可以,导致股票大幅波动。这些波动被视为一个不成熟领域最终会稳定下来的迹象。我不认为它会很快稳定。这种不稳定性是当以人类速度(或更慢的委员会)运作的机构试图跟踪一条非常不人类的能力曲线时发生的事情。而且只要我们在某种指数曲线上,并且只要这种增长持续,差距只会扩大。