我们是否正接近新的人工智能寒冬?
本文探讨了人工智能领域情绪的变化,从早期的过度乐观转向现实认知。作者认为,由于技术采用不足和扩散缓慢,而非技术瓶颈,我们可能正进入一个“人工智能寒冬”。通过分析“Token最大化”策略的失败、大公司的裁员借口以及开发者对AI生成代码的后悔,文章指出现在正是专注于真正采用人工智能的最佳时机。
2026年6月7日
我不知道你怎么看,但我感觉围绕人工智能的情绪正在悄然转变。曾经,我们听到的是所有知识工作者即将消失、大家都能享受闲暇爱好的美好承诺,如今却渐渐冷却,人们开始意识到这项新技术在当前形式下仍有局限。虽然它最终必然会让一部分人类变得多余,但绝不会像所有人宣扬的那样,在这么早的阶段就成为点金石。
我认为,我们可能正接近LLM和Agent的蜜月期尾声。请不要误解,我不是说这项技术不会有价值,而是说我们将在一段时间内看到更少的乐观情绪,直到下一个夏季来临。
这个寒冬并非源于技术停滞或触顶——我对这一点没有足够的发言权——而是由于缺乏采用和技术扩散。但作为从加密货币行业过来的人,我可以比较权威地告诉你,寒冬是排除噪音、专注建设的好时机,而现在正是致力于人工智能采用的最佳时机。
> 特别感谢Pablo Grueso在乘车途中与我简短讨论后,帮助我塑造并坚定了这个观点。干杯!
什么是“Token最大化”
大约十八个月里,企业人工智能采用的主流理论很简单:员工使用AI越多越好。每个人都必须开始采用这项新技术,成为AI原生,探索如何提升自身能力和产出。AI使用量成为核心指标。公司建立内部排行榜,设定Token消耗目标,衡量AI成功与否的方式——就像当年衡量数字化转型一样——看的是采用率,而非成果。
我指的就是臭名昭著的“Token最大化”:尽可能多地向模型输入Token,最大化吞吐量,从而最大化结果产出。其隐含的假设是:更多输入会产生更多输出,进而带来更多价值。我至今仍在问自己,最初怎么会有人觉得这是个好主意。
例如,亚马逊曾运行一个名为KiroRank的内部排行榜,根据工程师在公司AI开发平台Kiro上的活跃度进行评分。这本是衡量工具使用情况的合理方法。但结果可想而知:工程师们分配自主agent运行不必要的任务,只为提升排名。Token消耗上升,但有用工作并未随之增加(哦,惊喜!)。亚马逊高级副总裁Dave Treadwell最终告诉员工:“请不要为了使用AI而使用AI。要用AI来帮助解决客户问题、解决业务问题、进行创新。”然而,排行榜激励的并非这种行为,而是消耗更多Token(去你的上下文压缩)。显然,排行榜被关闭了。
亚马逊取而代之的是更合理的指标:跟踪工程师是否持续用AI产出有用的代码,而非消耗了多少Token(一个更主观的指标,更难衡量,但更符合他们真正追求的输出)。
这本身并非AI的问题,而是另一个政策设计未考虑目标与激励的案例。但当AI即将解决一切问题时,更多Token可能意味着更多解决方案。结果证明,AI可能需要适当引导才能解决问题,而策略和领域知识并不消耗那么多Token,且需要人类真正工作。
第一个警告信号:我们可能尚未弄清楚如何采用这项技术。
为何不再有意义
关于Token最大化失败的投资回报率,最清晰的数据来自Uber。该公司CTO透露,Uber在2026年4月就用完了整个Claude Code预算。COO Andrew Macdonald随后公开说出了许多人的想法:“这种联系还不存在”,即AI Token消耗与用户真正想要的功能之间的联系。Uber踩下了刹车(再次,哦,惊喜!)。
因做空2008年房地产市场而成名的Michael Burry将AI Token最大化描述为“疯狂、仓促、暂时的阶段”,由“配额驱动、排行榜驱动、管理层强制的过度消费”所驱动。他明确将其与1990年代末的互联网泡沫相提并论,并通过购买100万股Nvidia股票的看跌期权来支持自己的观点。我们稍后会回到这个与互联网泡沫的比较。
《财富》杂志的分析更正式:大多数公司停留在AI采用的第一或第二阶段,即基本实施和工作流重新设计。真正的价值需要业务重塑,而大多数现有企业并未真正尝试。吃掉它们午餐的是那些从开始就是AI原生的公司。
这并不是说AI不起作用。而是说我们仍然不知道如何高效地使用和应用AI。这就是Token最大化作为企业AI采用和熟练度指标失败的原因。优化测量而非结果,只会产生你预期的东西:大量活动,但价值不高。
如果每次我从朋友和同事那里听到“自从AI出现,我比以往工作更努力,好像永远没有时间赶上新进展”这句话时都能得到一分钱,那我早就发财了。而我总是问他们同样的问题:“你认为你产出的价值比AI之前更多吗?”剧透:答案差异很大(相关地,如果你还没读过,现在可能是个好时机来读一下我几个月前写的关于“我们不是害怕AI,而是害怕被边缘化”的文章)。
这又是一个支持我论点的事实——现在是开始采用AI的最佳时机,但公众叙事将开始变冷。
方便的借口
但AI采用不仅成为某些人的执念,也成为其他人的借口。在2025年到2026年间,出现了一种模式:公司以AI为理由宣布大规模裁员。亚马逊(约30,000人)、UPS(约48,000人)、甲骨文(约30,000人)、微软(约23,000人)、Salesforce(约5,000人)。仅2026年就有约80,000个工作岗位消失,45位以上CEO将AI列为驱动因素(见我在研究中发现的这个来源)。
Jack Dorsey将Block从超过10,000人削减至不到6,000人,并明确表示:“我们做出这个决定不是因为公司陷入困境。我们的业务很强……但有些事情变了。”Coinbase的Brian Armstrong也类似地说:“我看到工程师使用AI在几天内完成过去需要团队几周才能完成的工作”(然后他们发生了大规模宕机)。他宣布“纯经理”的终结,并将目标描述为“将Coinbase重建为一个智能,人类围绕其边缘对齐。”
我不认为这些CEO在撒谎。AI确实改变了用更小团队实现更多可能的方式。但在许多案例中,AI也充当了社会可接受的框架,用以合理化无论如何都会发生的收缩。公司在低利率繁荣期过度招聘,调整是不可避免的。AI提供了一个干净的故事,将原因从“我们做出了糟糕的招聘决策”转变为“技术发生了变化”。两者可能同时成立,但我暂时不相信AI叙事。
我预期(至少目前)不会出现大规模净失业浪潮。更可能的短期模式是收缩,同时人们和组织弄清楚AI到底是什么,随后当新一代AI原住民专业人士出现,懂得如何正确使用这些工具时,再迎来扩张。这正是变革性技术扩散的历史模式。它很少是一条平滑的上升曲线,而且几乎从未在第一波浪潮中被讲述。
我本人是AI拥趸,认为AI是一种不同的技术,将带来一场完全不同的革命,但仍然觉得为时过早。叙事上很好,但我怎么强调都不为过:我们还没有找到利用这项技术的最佳方式。
代码库的后悔
以下是说服我写下“寒冬将至”的原因,源于我们仍在摸索如何利用这项技术。一些开发者开始公开表达,人数越来越多,他们后悔过度依赖AI构建代码库。
高级开发者Dragos Nedelcu写了一篇关于在生产项目中用AI生成约15万行代码的经历。几个月后,他面对一片混乱:重复逻辑几乎无复用性,到处是死代码,单元测试毫无意义断言,级联bug同时影响七个或更多文件。他的结论直白:“从头开始比纠正数百行混乱的AI生成代码更快。”另一位工程师在七个月后批量删除了14,000行AI生成代码,代码库从41,000行缩减至27,000行,但保留了所有功能,bug率下降了73%。
老实说,我们都在与编码agent的关系中遇到过这种情况(至少我遇到过)。
HVM编程语言的构建者Victor Taelin(我已经关注他多年)在X上实时记录了他的痛苦。他用Opus在一天内实现了一种新方法:3000行C代码,性能提升5倍。然后花了接下来的15小时审计,发现了他所说的“脑残问题”:模型默默地假设HVM5本应处理欠应用和过应用的函数,并为此实现了一个庞大的系统,却从未询问过。这些本都不该存在。
他的结论显示了另一个我认为我们尚未学会有效利用这项技术的原因:“我在前5小时内从0到了95%。然而,15小时后,它仍然不是100%……如果我必须全部阅读、全部审查以确保没有脑残代码……那么用AI实现了什么?除了那多巴胺期待?”
最后那个短语,“多巴胺期待”,是我读到过的最诚实的“氛围编码”描述。哦,那美丽的AI垃圾老虎机,我们都如此上瘾了。
西班牙开发者Luis Ángel Alda很好地阐述了结构性问题:AI会产生“局部正确、全局不连贯”的系统。模型擅长优化下一步。而架构恰恰相反,是一项需要长期视角和直觉的学科,需要他所谓的“感受软件”。这来自多年构建、看着它们失败并重建的经验。AI不具备这种能力。它拥有的是极好的局部模式补全,这在很多事情上有用,但在需要全局连贯时却有害。
再次强调,这并不意味着AI编码无用。我经常使用它,它确实改变了我能交付多少东西。但用AI作为工具并带有判断力与将其作为判断力的替代品是有区别的。发布这些后悔故事的人大多做了后者——他们交出了架构,而不仅仅是样板代码。
这里真正重要的技能是知道何时使用、何时不使用,而这正是这个寒冬所要解决的。这需要时间和积累的失败来培养。我们都在学习,包括我自己。“人类/工程品味”仍然非常必要。
[原文因AI成本控制而截断]