AI的形态:锯齿状前沿、瓶颈与突出点
AI的能力分布不均,被称为“锯齿状前沿”。进步常被瓶颈阻碍,一旦解决,就会带来突飞猛进,如谷歌Nano Banana Pro提升了图像生成能力,解锁了PPT制作等新功能。
早在2023年,我和合著者创造了一个术语来描述AI奇特的能力:某些工作做得极好,另一些却极差,且与人类直觉的难度不匹配。我们称之为“锯齿状前沿”,它至今仍是AI的核心特征和困惑之源。AI能在医学诊断或高难度数学上超越人类,却仍在简单视觉谜题或自动售货机操作上表现糟糕。这种能力的不可预测性使得AI比看起来更难使用。
我认为锯齿状将长期存在,但其含义尚不确定。Tomas Pueyo在X上发布了一张热门图片,描绘了他的观点:不断扩大的前沿将超越锯齿状。即使AI在某些方面相对较差,但人类能力前沿基本固定,而AI能力快速增长。如果AI在运行自动售货机上相对较差,但最终仍比任何人类都强,那又有什么关系呢?
然而,这种观点忽略了工作和技术的一些关键方面。首先,前沿确实非常锯齿状,可能我们永远不会得到完全覆盖人类任务的超级智能。例如,锯齿状的一个重要来源是LLM无法永久记住新任务并从中学习。许多AI公司正在寻求解决方案,但这个问题可能比研究人员预期的更难解决。没有记忆,AI将难以完成人类能做的许多任务,即使在其他领域超越人类。Colin Fraser绘制了AI-人类重叠的两种可能情况。AI在某些领域确实超越人类,但在其他领域要么远低于人类水平,要么根本不重叠。如果真是这样,AI将创造与人类互补的工作机会,因为我们各自拥有不同的能力。
这些是概念图,但一组科学家最近试图绘制AI能力图,发现其增长不均匀,正如锯齿状前沿所预测的那样。阅读、数学、常识、推理——这些方面AI进步迅速。但记忆进展甚微。更好的提示或模型(如GPT-5.2比GPT-5好得多)可能改变前沿形状,但锯齿状依然存在。
瓶颈
即使是微小的锯齿状也可能产生问题,使超级智能AI无法自动完成任务。系统的功能受限于其最差的组件,这就是瓶颈。有些瓶颈是因为AI顽固地低于人类水平。LLM的视觉系统不足以读取医学影像,因此无法替代医生;LLM过于有帮助而缺乏反驳,因此无法替代治疗师;幻觉虽减少但依然存在,因此无法执行需要100%准确率的任务。随着前沿扩展,这些问题可能消失,但弱点并非唯一瓶颈。
有些瓶颈与能力无关。即使AI能比传统方法更快识别候选药物,临床试验仍需实际患者招募、给药和监测。FDA仍需人工审查申请。即使AI使好药物想法增加十倍,瓶颈从发现速度转移到审批速度,而机构以自身速度运行。
即使在AI几乎完全超越人类的领域,人类可能仍需处理边缘案例。例如,一项研究使用AI重现Cochrane综述(深度研究的荟萃分析)。研究人员发现,GPT-4.1在适当提示和支持下,“在两天内重现并更新了整期Cochrane综述(12篇),相当于约12人年的传统系统综述工作。”AI筛选了超过14.6万条引用,阅读全文,提取数据,进行统计分析,准确度甚至超过人类。但AI无法访问补充文件或给作者发邮件请求未公开数据,而人类审稿人通常这样做。这不到1%的错误意味着无法完全自动化。12人年变成两天,但需要懂科研流程的人类处理边缘情况。
这就是模式:锯齿状产生瓶颈,瓶颈意味着即使非常智能的AI也难以轻易替代人类。这至少在防止快速失业方面是好的,但也在阻碍科研加速方面令人沮丧。瓶颈也促使AI公司专注于改进阻碍进展的能力,就像数学能力一旦成为明显障碍就迅速提升。历史学家Thomas Hughes称此为“反向突出点”——单个技术或社会问题阻碍系统飞跃。
反向突出点
瓶颈可能造成AI永远无法完成某事的印象,而实际上进展受限于单个锯齿状弱点。当弱点成为反向突出点,AI实验室突然解决该问题时,整个系统就会飞跃。
最近最有力的例子是谷歌的新图像生成AI——Nano Banana Pro。它结合了出色的图像创建模型和能够指导模型、根据需要查找信息的智能AI。例如,当我提示生成“水獭科学家用白板解释Ethan Mollick的水獭飞机WiFi测试,并展示通过照片墙”时,得到了包含连贯文字、不同角度、阴影且无明显拼写错误的图像。而2021年同样提示只能生成拙劣图像。
事实上,出色的图像生成曾是许多新能力的瓶颈。例如,每个主要AI公司都试图让AI制作PowerPoint,方法是让AI编写代码从头创建。这是一个艰难的过程,但Claude和ChatGPT都有改进,尽管幻灯片略显枯燥。而Google的NotebookLM结合智能Gemini和Nano Banana Pro,不是通过代码,而是将每张幻灯片作为单个图像创建。当图像质量低时这不可能,现在突然实现了。由于图像灵活,我可以尝试不同风格:手绘风格、1980年代朋克风格、高对比度亮黄色背景,当然还有水獭飞机主题。
在很多方面,困难部分已在Claude和Gemini的前沿之内,它们能根据源材料、主题和想法总结成幻灯片。幻觉很少,来源正确。它们能创造水獭类比或朋克主题描述。这是智力密集部分,AI一年多前就已具备。但制作幻灯片或其他视觉呈现曾是使文本墙有用的瓶颈。问题尚未完全解决:图像不完美且无法编辑(据说很快会修复),但方向已明朗。
多次跃进
即使AI在分析和PPT上超越人类,我认为它不一定取代咨询师和设计师的工作。这些工作包含许多Jagged Frontier上AI不擅长而人类擅长的任务:你能收集信息并获得多方支持吗?你能理解决定人们真正需求的潜规则吗?你能提出独特方案解决深层问题,并区别于AI材料吗?锯齿状前沿为人类工作提供了许多机会。
然而,我们应该期待跃进,即专注于反向突出点导致瓶颈突然消除。以前只有人类能做的领域变成AI也能做。如果你想了解AI的发展方向,不要看基准测试,而要看瓶颈。当一个瓶颈被打破,所有被阻碍的东西就会涌出。图像生成曾是演示、文档、视觉通信的瓶颈,现在不是了。下一个瓶颈是什么?记忆?实时学习?在物理世界中采取行动的能力?
现在,某个AI实验室正在将每个瓶颈视为反向突出点。当它们突破时,我们不会有太多预警。但锯齿状前沿是双刃剑。到目前为止,每次跃进都会留下更多需要人类的边缘。未来会有许多跃进,也会有许多机会。关注两者。