AI News HubLIVE
站内改写5 分钟阅读

事物的形态

文章探讨了AI能力的指数级增长及其对工作、市场和政策的深远影响。从“协同智能”到“管理AI”的转变,AI代理(如Claude Code、Codex)已能独立完成复杂任务。作者通过“水獭测试”和多项基准测试展示了AI的快速进步,并指出虽然AI能力惊人,但实际应用仍处于早期阶段。文章还介绍了StrongDM的“软件工厂”这一激进实验,以及AI导致的“滚动式颠覆”——如金融市场波动、企业裁员和政策冲突。最后,作者警告递归自我改进(RSI)可能加速变化,但强调当前仍是塑造AI未来的关键窗口。

来源One Useful Thing作者: Ethan Mollick

2023年10月,我曾撰文探讨“事物之影的形态”,推测人工智能在未来几年可能演变成的样子。如今,我认为我们能够更清晰地看清“事物”本身,以及随之而来的诸多后果。正如我在近期文章中讨论的那样,我们已进入AI发展的新阶段。自ChatGPT问世以来,人机协作的形式表现为我所谓的“协同智能”——人类通过来回提示AI来获得任务帮助。然而,从2025年底开始,得益于Claude Code、OpenAI的Codex以及OpenClaw等AI代理,我们进入了一个新时代。这些AI系统能够接受你分配的任务——有时是数小时的人类工作——并在几分钟内返回合理且有用的结果。这是一个管理AI而非与之协作的时代。

这种运用AI的新方法源于AI能力的快速指数级提升。这意味着,若不理解AI日益增长的能力,就无法把握我们当前所处的位置以及可能的发展方向。

攀登指数曲线

指数级改进难以直观呈现,因此我不想用图表,而是从水獭开始。如果你关注过我的AI写作,就会知道我的“水獭测试”——我要求各种AI图像模型展示一幅“水獭在飞机上使用WiFi”的图片。如下所示,从2022年(ChatGPT发布之年)到2025年,进步迅猛且显著。

那么,自2025年4月那张图像以来发生了什么?随着图像近乎完美,视频成为新的前沿领域,并同样取得了指数级增长。为了证明这一点,我向TikTok母公司字节跳动开发的最先进(且尚未在美国发布)AI视频模型输入提示词:一部关于水獭如何看待Ethan Mollick‘水獭测试’的纪录片——该测试以AI生成水獭坐飞机图像的能力来评判AI。这是首个结果——请务必开启声音:

除了一处发音错误外,这个结果几乎完美,甚至水獭被赋予了拟人化的表情。当然,视频模型很酷,但它们未必能说明实用代理型AI的能力。那么,如果我们观察AI能力的基准测试,是否也能看到同样的指数曲线?

在当今最著名的AI评估——METR长任务图中,我们确实看到了这一趋势。该测试试图衡量AI能自主且可靠地完成多少人类工作。它招致了一些批评,甚至METR本身也指出了潜在问题。但如果你不喜欢METR图,你会发现大多数AI能力图都呈现类似的曲线。

例如,我选取了四个难度各异、多样化的AI测试,并在下图中绘制了随时间变化的进展。左上角是“谷歌级问答基准”的得分——这是一项知识测试,研究生使用谷歌在其专业领域外仅得34%,专业领域内约70%,而最先进的AI现在得分高达94%。再看GDPval,行业专家评估AI与经验丰富的人类在复杂任务上的表现,最新AI在82%的情况下达到或超过顶尖人类水平。同样的模式出现在“人类最后一次考试”——由大学教授编写的极高难度问题集,需要相当的专业知识才能解答。甚至可以用AI解决谜题的能力来衡量(你可以试试这些谜题,很有趣!)。每个测试都显示出类似的能力快速提升,且几乎没有放缓迹象,至少直到达到测试的最高可能分数。

抛开指数图不谈,必须认识到所有这些测试都有其自身缺陷,AI仍然“参差不齐”——能高水平完成某些任务,却在其他任务上出错。此外,尽管在测试中表现惊人,企业采用AI仍处于非常早期的阶段,这意味着迄今为止,大多数组织的变化微乎其微。但“大多数组织”并非指所有组织。我们已经开始看到利用AI代理新能力的新型组织方式的端倪。

工作的彻底变革

几周前,安全软件公司StrongDM的一个三人团队宣布他们构建了一个“软件工厂”——一种完全依赖AI代理来编写、测试和交付生产软件的工作方式,无需人工参与。该流程包含两条(相当激进的)规则:“代码不得由人类编写”和“代码不得由人类审查”。为支撑该工厂,每位人类工程师预计每天在AI令牌上花费相当于其工资的金额——至少1000美元。

工厂的基本理念是:将人类编写的未来产品路线图转化为产品。编码代理根据路线图构建软件,同时测试代理在模拟客户环境中试用软件(测试代理按需构建该环境)。各代理组相互反馈,循环往复直到结果令AI满意。然后人类审查成品,结果直接交付给客户,任何人都从未接触甚至查看底层代码。

显然,有许多细节使这种方法奏效,StrongDM团队已公开分享了大量细节。他们还邀请了一些精明的外部观察者观看工厂运作并发表评论,因此你可以阅读Simon Willison和Dan Shapiro的记述,以更好地了解其方法的优缺点。然而,在许多方面,软件工厂的具体细节不如这样一个事实重要:这种关于工作方式的激进实验如今不仅可能,而且很可能是必要的。AI已经足以改变组织的运作方式,而实验才刚刚开始,即使模型仍在不断改进。

滚动式颠覆

实用的代理、参差的指数级改进以及彻底实验工作本质的能力,共同构成了一种滚动且不可预测的AI进展环境。随着AI能力跨越门槛,它解锁了激进的新用例,有时在一夜之间改变了人们对AI能力的看法。与此同时,实验AI的组织将找到使其发挥作用的方法,从而导致突然宣布新战略或大规模转变公司最看重哪些类型的员工。此外,随着AI持续改进,更多政策制定者将对AI治理产生兴趣,从而与AI公司产生冲突。

这并非猜测,因为我们在短短一周内就目睹了这一切。2月22日,一家名不见经传的金融公司Citrini Research发布了一个虚构场景,描述AI的采用可能如何到2028年摧毁一些老牌企业。文中许多元素显然牵强,但却触动了华尔街的神经,导致主要股票市场价格波动。2月26日,金融服务公司Block宣布裁员40%,暗示这是由于AI。很可能AI的作用被大大夸大了,AI只是被用作大规模裁员的遮羞布。然后,2月27日,五角大楼与AI公司Anthropic之间爆发了一场公开冲突,争论谁应控制Claude如何被政府使用的规则。

从很多方面来看,这些案例都不像表面看起来那样。Citrini报告是一个虚构场景,Block裁员与AI无关,关于战争中AI的冲突则涉及许多仍然不够清晰复杂问题。但我认为那一周很好地展示了近未来将会是什么样子。关于AI能力的突然揭示导致市场快速反应。AI对就业的影响日益真实(尽管对其短期影响好坏存在大量争论)。以及AI公司与全球政策制定之间日益纠缠。随着风险升高,事情很可能感觉更加不稳定。

当然,也有可能事情会稳定下来。也许AI改进碰到天花板,组织逐渐吸收变化,滚动式颠覆随着人们了解AI的能与不能而变得可控。历史上充满了本应一夜之间改变一切却用了数十年才彻底重塑经济的技术。

但我不会押注于此。

一个原因是AI公司正在相当明确地告诉我们接下来会发生什么:递归自我改进(RSI)。这一理念是:AI系统越来越多地被用于构建更好的AI系统,形成反馈循环,可能加速我上面展示的曲线。在1月的达沃斯论坛上,Anthropic的Dario Amodei解释说,如果你制造出擅长编程和AI研究的模型,就可以用它们构建下一代模型,从而加速循环。他指出,Anthropic内部的工程师现在几乎不再自己编写代码。OpenAI在2月发布最新的Codex模型时,该公司声明这是“我们第一个对自己创建起到重要作用的模型”。Google DeepMind的Demis Hassabis在同一达沃斯小组讨论中承认,关闭自我改进循环是所有主要实验室正在积极努力的方向,尽管他也警告仍存在缺失的能力和真正的风险。

我们不知道这能走多远。RSI作为理论概念已有数十年历史,实验室可能遇到瓶颈,无论是计算、数据还是AI研究本身的难度。我们也不知道基于LLM的AI是否会最终达到一个天花板,无法再进步,或者参差的前沿永远不会变得平滑。我不认为我们知道任何确定的事情,但我认为我们已经过了递归自我改进是科幻小说的阶段。相反,它是每家主要AI公司路线图上的明确项目。如果循环真的闭合,我们一直观察的指数曲线将变得更加陡峭,终点不确定。

因此,这就是我们今天所处的位置:2月那一周的不稳定性预示着当AI日益增长的能力开始同时与市场、就业和政府互动时会是怎样一种感受。这种不确定感很可能只会进一步蔓延。但不确定性不等于无助。当一项技术如此强大且如此不稳定时,个人和组织此刻的选择就显得更为重要。我们现在可以看到事物的形态,但我们仍然可以影响事物本身,以及它对所有人的意义。我们显然没有关于AI在工作、学校或政府中如何使用的规则或榜样。这是一个问题,但这也意味着每个现在找到良好AI使用方式的组织都在为其他所有人树立先例。塑造事物的窗口可能不会持续太久,但它就在此时此地。