与Mythos合作是什么感觉
作者早期体验了首个面向公众的神话级AI模型——Claude 5 Fable。该模型在多项复杂任务中显著超越此前所有模型,能够自主运行数小时完成多页规格项目。作者感受到角色从“巫师”转变为“赞助人”,AI在幕后自主决策,用户仅需下达指令并评判结果。文章通过等时地图和数据分析软件等案例,展示了Fable的强大能力及其带来的黑箱问题。
我有幸提前体验了首个面向公众的神话级AI模型——Claude 5 Fable。关于神话级的讨论大多聚焦于软件安全影响,但我对其进行了全方位测试(Fable的安全防护基本禁止其用于网络安全)。我的结论是,它比我用过的任何模型都实现了真正的飞跃,更重要的是,它暗示我们与AI的关系正在发生剧烈变化。
首先,Fable有多强?在我进行的一系列实验中,它几乎在所有公开模型中都遥遥领先。它能够处理多种问题,并产生令人惊讶的结果——它曾连续工作十几个小时,执行多页规格说明。我将简要介绍几个更复杂、更严肃的用例,但你能看到它在所有任务上的全面进步。不过,在文章中传达这一点有个问题:许多最令人印象深刻的成果只对部分读者有吸引力。例如,它仅凭一次提示和一次反馈,就生成了一篇我见过的最复杂的AI学术社会科学论文。它还创作了一首关于理发的10页史诗级押韵诗,每个单词都以字母“s”开头。
作为一个更易懂、更有趣的例子,我还让它创建了一系列游戏供你尝试。在Claude Code中,所有游戏只需一次初始提示——Fable需要从我的模糊提示中生成可运行的程序,再加上几次轻微鼓励(“让它更好”)或反馈的额外提示。这些游戏尤其令人印象深刻的是,Claude无法生成图像,因此每件艺术品或3D对象都仅靠数学完成,未使用任何外部资源。你可以试试这些游戏:一个关于抛硬币的游戏(提示语:“Balatro,但用于抛硬币游戏”)相当有趣;一个蛇游戏,其中蛇有自我意识并发生疯狂事件;或者一个关于深入地下探索的游戏。
输出令人印象深刻。但当我转向更严肃的项目时,使用该工具的感觉往往介于愉悦和不安之间。愉悦是因为我只需提出要求,事情就发生了。不安也同样是因为我只需提出要求,事情就发生了。
为了理解原因,有必要了解Fable完成工作的方式。为此,我想举一个我在许多先前AI模型上测试过的例子:构建等时地图。这种地图显示在给定时间内可到达的距离,第一张于1881年创建,显示从伦敦出发的旅行时间。此前没有模型能做出像样的等时地图,因为这需要研究数千个潜在行程距离和大量小判断决策。我决定在Fable上尝试,使用Claude Code并给出提示:我希望你构建一个经过充分研究且美观的等时地图,让我可以选择不同城市,并基于真实数据查看实时等时线。我希望设计独特。你需要考虑机场(及往返机场的时间)、火车、步行、驾车。数据不需要实时,但应基于你的研究和数据真实可靠。你可以从几个城市开始,但越通用越好,这应该是一个全新的项目。它随后建议以原始地图的风格进行。我同意,它便开始工作。
值得再看一下AI自行完成的数小时构建过程的记录,因为你能看到一些不寻常的事情。首先,AI启动了多个其他AI(我相信主要是较便宜的Claude Sonnet)来协助研究旅行时间,最终检索了超过2200个特定航班、从TGV到新干线的铁路时刻表,以及来自多篇学术论文的各国公路速度。在这些智能体运行时,它开始编码。然后它又启动了更多智能体和测试来验证其代码,同时记录进度。
结果是一个功能完整、复杂度令人印象深刻的地图,看起来很像1881年的原始地图,但这并不意味着它完美无缺。我注意到许多偏远地点(如格陵兰岛)仅包含旅行时间的估计值,而非精确数字,因此我让Fable修复这一问题,包括指示:实际获取偏远机场和地点的旅行时间。这一次,AI启动了一个工作流程——对抗性智能体组进行研究和相互测试结果。它查明了太平洋皮特凯恩岛的船舶航行频率以及如何从渥太华到达格里斯峡湾。它在极短时间内消耗了大量令牌(稍后会详细说明)。结果令人印象深刻。我又在感兴趣的方向上推动了几次(包括要求其他可视化方法等)。我建议你花几分钟点击查看结果,并在图表底部阅读其方法和来源。
这项目可能只对热爱旅行和地图的人有用,但它表明AI解决了涉及研究、数学、视觉开发、品味、判断和复杂编码等多个领域的难题。而不安的部分是,我做的实在太少了。我给出了一个非常雄心勃勃的指令,AI便执行了。我提出了一些小反馈,AI就解决了问题。我的角色极为有限。
重要的是,不仅我所做的工作相对于模型而言很少,而且我对模型如何做事、为何选择特定方法、甚至结果详细程度的控制也很有限。AI决策过程的细节并未向我展示,而且过程太长,不值得追踪。地图要求AI对数百个小选择做出判断,它就这样做了,而我既不了解这些选择,也没有机会参与。在很多方面,这堪称奇迹(我始终可以在最后要求修改),但另一方面,它使AI成为终极黑箱。
Fable最雄心勃勃的项目需要更多解释。我做了大量研究,人类提供的答案杂乱无章,进行任何分析都需要正确分类这些答案:一个想法有多创新?人们为什么喜欢这本书?为了解决这个问题,我们曾使用人类研究人员对一条信息做出判断,并通过统计比较他们的答案与其他人的答案来确定数据是否可信。最近大量研究表明,AI或许能够完成这项重要工作,但校准AI和人类判断一直困难且昂贵。因此,我让Fable解决这个问题,它首先生成了一复杂的19页设计文档,然后执行它。它工作了九个半小时。
结果是一个极其复杂的软件,AI称之为Concord,可以接收多个数据集,校准人类和AI的响应,然后对结果进行复杂数据分析。再次强调,它并不完美。作为专家,我能发现一些错误和遗漏(有些是我要求的设计引起的),并让AI进行修正。但这个项目以及其他许多项目的交付范围超越了我所见过的任何成果。在这个案例中,它是一个研究人员多年来需要但从未盈利的软件。你现在可以直接使用或修改这里的代码。我确信它并不完美(我只花了一小时处理结果),但软件工程师可以解决我未能快速发现的剩余潜在漏洞(这也是未来我们可能需要更多程序员的原因之一,以帮助应对新用途的爆发)。
这种力量与奇怪和限制并存。限制之一是令牌消耗。Fable的价格是Opus的两倍,其令牌消耗速度表明实际生产成本“很高”,不过它巧妙地委托给更便宜的模型可能会大幅降低实际价格。Fable的安全护栏在出现安全问题的细微迹象时也会触发,默认回退到功能较弱的Claude 4.8 Opus,而且这种情况发生得太频繁。锯齿型前沿仍然存在。例如,AI仍然以同样的怪异风格写作(事实上,Fable生成的软件带有Claudisms的痕迹;其进度报告也是如此,所有那些“承担重担”和“赢得答案”)。但更深层的奇怪之处在于,我做得如此之少,且对其过程知之甚少。
去年,我称之为与巫师合作:你念出咒语,事情就发生了。有了Fable,咒语变得如此强大,以至于我不再确定自己是巫师。我更像一个赞助人。我描述我想要什么,我为此付费,我评判结果。施法发生在我无法观看的地方,在数百个我永远无法投票的小选择中。工作已从过程转向结果。我不再掌舵;我委托。
这种边缘化可能是暂时的,只是界面尚未跟进的产物,我们将会获得更好的窗口来了解这些模型在做什么,并在过程中更好地引导它们。也可能相反:模型越强大,人类有意义地参与的空间就越小,黑箱就是力量的代价。我怀疑后者更可能是真正的方向。这并非明显意义上的失控。我仍然可以引导Fable,它非常出色地遵循指令:指令越宏大,结果越好。但引导不再等同于做事。我向模型简要说明,它启动自己的智能体进行研究、撰写和互相检查工作,结果是成品。赞助人委托一位艺术家。Fable更接近一个完整的工作室,而我是客户,签字确认最终作品,从未踏上工作现场。