AI News HubLIVE
站内改写6 分钟阅读

Claude Code 及其未来展望

新一代AI编码工具如Claude Code正展现出强大的自主工作能力,能够独立完成复杂任务并自我纠错。文章介绍了Claude Code的功能,如长时间自主运行、上下文压缩、技能和子代理机制,并探讨了其对编程领域的深远影响。尽管目前主要面向程序员,但预示着AI在知识工作中的更广泛应用。

来源One Useful Thing作者: Ethan Mollick

Claude Code,作为新一代人工智能编码工具的佼佼者,最近展示了令人瞩目的能力。我给它下达了一个任务:“开发一个基于网页或软件的创业点子,能让我每月赚1000美元,并且所有工作都由你完成——包括生成想法和实现它。我不需要做任何事,只需运行你给我的一个程序。它不需要我具备任何编码知识,所以请确保一切运转良好。”AI只问了三个选择题,随后决定我应该以39美元的价格向专业用户出售包含500个提示词(prompts)的套餐。接着,它独立工作了整整一小时十四分钟,创建了数百个代码文件和提示词。最后,它给了我一个文件,只需运行即可创建并部署一个能正常运营的网站(虽然其中充斥着粗糙的虚假营销声明),该网站就出售它承诺的那套500个提示词。你实际上可以看到它上线的网站,不过我已经移除了销售链接——那个链接原本确实有效并能收款。我强烈怀疑,如果我无视良心真的出售这些提示词包,我能轻松赚到承诺的1000美元。

Claude Code没有友好的界面,但你可以看到我如何提出单一请求,AI对此进行询问,然后独立工作超过一小时,最后准确地给出了我要求的东西,没有任何明显的错误。

这就是工作中的Claude Code,它代表了在过去一个月左右突然出现的AI能力飞跃的新一代编码工具。这些新工具之所以突然变得强大,并非源于单一突破,而是两大进步的结合。首先,最新的AI能够执行远超以往的自主工作,同时在编程任务中自我纠正许多错误。其次,AI被赋予了一个“代理框架”(agentic harness),包含一系列工具和方法,使其能够以新的方式解决问题。这两大因素叠加,导致大型AI公司的最新技术取得了巨大飞跃。

METR跟踪了AI能自主完成(以人类专业人员所需时间为衡量)且成功率50%的任务时长。这一时长呈指数级增长,并在过去几个月里大幅提升。这只是AI能力的一个衡量标准,但与其他大多数指标也高度相关。

不幸的是,对于大多数希望尝试AI的人来说,这些新工具是为程序员设计的。我的意思是,它们确实是专为程序员打造的:它们假设你理解Python命令和编程最佳实践,并且被封装在看起来像20世纪80年代计算机实验室的界面中。它们还明确旨在通过适合现有程序员工作流程的方法,帮助分析、排查和编写代码。从很多方面来看,这很遗憾,因为这些系统实际上对所有类型的知识工作者都有广泛用途,通过观察它们的能力(并亲自尝试),我认为你可以学到很多关于AI未来的知识。在这篇文章中,我们将重点关注Claude Code(由Opus 4.5驱动),但它与主要竞争对手OpenAI的Codex(由GPT-5.2驱动)和Google的Antigravity(由Gemini 3驱动)的工作原理类似。

回到Claude Code启动创业公司的例子,尽管它实际表现令人印象深刻,但仅仅触及了该工具能力的一小部分。在那个案例中,我只使用了Claude Code进行编码,但如果我要求它对实时网站进行不同角色用户的测试并给我一份报告,它会部署其众多工具之一——与电脑上网页浏览器的连接。Claude会控制浏览器,像人类一样滚动浏览它创建的网站。在第一次测试中,它给了我一份相当乐观的报告,但由于我知道AI往往有谄媚倾向,我还要求它提供一份更批判性的报告。第二份报告更好地指出了潜在问题(并发现了网站上粗糙的虚假评论)。作为下一步,我可以轻松要求它实施其建议,从而在几乎不需要我输入的情况下继续这个过程。

魔术技巧

Claude Code如此出色的一个重要原因是它在代理框架中使用了各种技巧,使其非常智能的AI——Opus 4.5——能够克服LLM的许多问题。例如,在AI进行用户研究时,一个有趣的事情发生了:它的上下文窗口满了。正如你所知,AI一次只能“记住”有限的信息。这个上下文窗口通常按人类标准相当长(15万字或更多),但它会很快被填满,因为它包含整个对话、AI读取的每个文档、拍摄的每张图像以及帮助引导AI的初始系统提示。AI没有真正的长期记忆,所以一旦上下文窗口满了,它就无法记住更多内容。如果你只是进行随意聊天,这其实不是问题。与ChatGPT的任何长对话都有滚动上下文窗口,AI会不断忘记对话最旧的部分,但通常能通过即兴发挥基于最近讨论来跟上。然而,如果你在做实际工作,AI在阅读新代码时忘记部分代码就会成为大问题。

工作中的压缩。Claude Code以不同方式处理这个问题。当上下文耗尽时,它会停止并“压缩”到目前为止的对话,记下停止时的确切位置。然后它清空上下文窗口,Claude Code的新版本读取笔记并回顾进展——想象一下电影《记忆碎片》中失忆的主角每次醒来没有记忆时,会看着身上的纹身作为参考。这些笔记给了Claude继续前进所需的一切。这就是为什么Claude能连续运行数小时,它会仔细记录沿途所做的工作,并生成可参考的中间成果,如软件片段和报告。

这不是Claude Code用来绕过AI局限的唯一技巧。另一个是使用技能。如读者所知,用户必须通过提示词(prompts)引导AI做事。这些提示词充当指令,随着AI变得智能,它们执行复杂提示(甚至长达百页的提示)的能力大大提高。然而,这些长提示会占用大量上下文窗口,并且需要在正确的时间给AI正确的提示。这要么意味着作为人类,你必须不断提示AI,要么需要设计一个复杂的自动化系统来持续向AI输入提示。

技能解决了这个问题。它们是由AI决定何时使用的指令,不仅包含提示,还包含AI完成任务所需的一套工具。它需要知道如何构建一个出色的网站吗?它会加载“网站创建者技能”,该技能解释了如何构建网站以及构建时要用的工具。它需要构建一个Excel电子表格吗?它会加载带有自己指令和工具的“Excel技能”。再做一个电影类比,就像《黑客帝国》中的尼奥将武术指令上传到大脑并习得新技能:“我会功夫。”技能可以让AI按需切换知识,从而覆盖整个流程。例如,Jesse Vincent发布了一套有趣的免费技能,让Claude Code能够处理完整的软件开发过程,按需学习技能,从头脑风暴和规划开始,一直到测试代码。技能创建技术上非常简单,用普通语言完成,AI实际上可以帮助你创建它们(稍后会详细介绍)。

一个技能文本的例子,这里展示的是Anthropic发布的“设计技能”。注意它是用普通语言编写的,并信任AI做出决策。

除了技能,Claude Code还有其他手段来管理有限的上下文窗口并解决难题。它还可以创建子代理——实际上是启动其他专门的AI来解决特定问题。这在很多方面都很有用。由于Opus是一个大型昂贵的模型,它可以将来回较简单的任务委托给更便宜更快的模型。它还允许Claude同时运行多个不同进程,使其像团队而非个人工作。而且这些模型可以非常专业化,拥有自己的上下文窗口。例如,我构建了专门用于研究和图像创建的子代理。主AI模型在需要时会“雇佣”这些代理来完成专门工作。

你甚至不需要创建自己的工具。任何人都可以分享技能或子代理,而希望让AI代理与其产品配合使用的公司可以采用一种称为模型上下文协议(MCP)的方法,赋予任何AI指令和访问权限。有来自出版商的MCP让AI访问科学研究论文进行研究,来自支付公司的MCP让AI分析财务数据,来自软件供应商的MCP让AI使用特定软件产品,等等。结果是一个高度灵活的系统,其中像Claude Opus 4.5这样聪明的通才AI可以按需应用专业化的技能,并根据需要使用工具,同时跟踪自己的工作。

Claude Code特别强大,因为它能在你的电脑上操作你的文件。所以现在你拥有了一个能做人类在机器上几乎任何事情(前提是有人类权限)的AI。它可以读取你所有文件并创建新文件(PowerPoint和Word归根结底只是代码,Claude知道如何编写代码),使用你的浏览器上网,为你编写和执行程序等。当然,AI并非完美无缺,给AI访问你的浏览器和电脑的权限会带来各种新风险。AI可能会删除不应删除的文件,执行产生意外后果的代码,或访问浏览器中的敏感数据。尽管有这些警告,我将给你一个Claude Code的快速入门,但请做好备份,使用专用文件夹,并且不要让它访问任何你无法承受损失的东西。

业余者的Claude Code指南

尽管我一直在使用Claude Code的命令行界面(如截图所示),但有一种更简单的方法(从昨天开始!)来访问Claude Code。你可以通过Claude桌面版(可在此处下载安装)来实现。目前,桌面版的功能比命令行界面略少,但对于业余爱好者来说要容易得多。

现在,只需授权AI访问一个文件夹(记住Claude可以对文件夹内的文件做任何事,所以如果敏感请小心并做好备份),然后你就可以开始与AI合作:让它研究和编写报告,将其访问你的信用卡记录以整理成电子表格并告知任何异常,要求它进行数据可视化,或其他你喜欢的任何事。我前面提到的最强大的选项是通过以“/”开头的斜杠命令访问——输入/agents可以设置子代理,/skills可以创建或下载技能等(桌面版支持的斜杠命令有限,但完整功能即将推出)。有很多人使用Claude Code的方式,所以你可以尝试找出适合你的方法,但我也建议你用它真正编程,即使你不是程序员。

例如,在写这篇文章时,我会偶尔打开一个Claude Code窗口,让AI为我构建一个游戏作为乐趣:一个文明兴衰的模拟历史,发展出自己的语言、文化、经济。每隔几分钟,我会给AI另一个看似不可能的要求:确保世界有自身的板块构造和天气;记录统治者的家谱;构建一个AI来戏剧性总结事件等等。每次修改后,AI都会进行游戏测试并生成新版本。与之前的“氛围编码”体验不同,AI从未卡住或陷入循环,一切都很顺利。请看下面的视频。我确信其中充满了专业程序员会发现的漏洞,但你可以在这里下载结果(AI也处理了这部分)。

这一切意味着什么?如果你是一名程序员,你应该已经在探索这些工具。如果你与编程相关(处理数据的学者,希望尝试代码的设计师,任何想尝试构建想象之物的人),这是你实验的时刻。但这里有更深层次的含义:借助合适的框架,当今的AI能够进行真实、持续且确实重要的工作,而这反过来正开始改变我们处理任务的方式。

不出所料,这一切从编程开始。AI界最著名的程序员之一Andrej Karpathy最近发帖说:“我从未感到作为程序员如此落后。这个行业正在被大幅重构,因为程序员贡献的代码部分越来越稀疏且间隔。我有一种感觉,如果我恰当地整合过去大约一年里出现的工具,我本可以强大10倍,而未能获得这种提升绝对是技能问题。”不要让当前Claude Code的笨拙或其对编程的专门化迷惑你。能够使AI处理其他知识任务的新框架即将出现,随之而来的还有它们将带来的变革。