AI News HubLIVE
站内改写5 分钟阅读

AI代理的有用性

本文探讨了AI代理的实用性,作者从自身研究经历出发,指出尽管AI技术发展迅速,但个人在空闲时间对AI代理的需求有限。作者反思了数字极简主义哲学,并讨论了AI代理在编程、写作和研究中的实际应用,强调人类参与的重要性。

来源Hacker News AI作者: Curiositry

关于AI代理的有用性

2026年4月8日

代理式AI正经历其高光时刻(有人说是十年)。过去两年,我一直在研究基于LLM的代理,但研究(涉及公共资助项目和学术同行评审)进展缓慢,无法跟上整个科技行业日新月异的发展步伐,尤其是当AI工具本身被用于辅助编程新工具和框架时。小规模实验很快就会被新的前沿模型和大型公司的突破性工具所淘汰。现在,实验最先进的AI模型比以往任何时候都更容易(只需连接API),但要在保持相关性的同时进行稳健的实验,时间上却颇具挑战。

尽管发展速度极快,但技术的普及程度缓解了紧迫感。大多数改进至今都已出现在开源模型和开源软件中。任何护城河都无法长期坚守,竞争对手经常超越彼此。许多研究都是公开的,甚至严密保守的秘密也可能因非常简单的错误而泄露。我既不作为公民也不作为研究者担心在AI竞赛中“落后”,因为这项技术是如此易于获取。然而,商业经理和CEO们显然看法不同,他们急于尽快采用AI,而没有充分评估为什么、如何以及以何种成本。这些工具仍然全新,关于如何有效使用它们存在着大量不同的建议。我尤其感兴趣的是人们对AI代理有用性的看法分歧之大,这也是促使我写这篇文章的原因。

代理的缺失

我发现AI代理有很多引人入胜之处,但最有趣的是它们在业余时间对我几乎没有用处。在工作中,它们在某种意义上至关重要,因为我以研究它们为生。为此,我实验编码代理,以了解它们将如何以及会如何影响软件工程;毫无疑问,计算机编程已被永久改变。但当我合上工作笔记本电脑时,我没有丝毫让AI代理为我做任何事的冲动。

我想知道,我对AI代理代表我行动的需求缺乏,究竟是一种特权地位的体现,是我生活中关注重点的结果,还是它们实际上并不像宣传的那样有用。在很多方面,我显然是特权的——享有免费教育、广泛的社会服务、免费医疗和免受审查的自由,这使得过上稳定、安全的生活更加容易,无需与强大机构斗争以维护我的权利。我提到这一点,是因为大量轶事证据表明LLM如何帮助人们解决涉及繁琐官僚流程的各种挑战。由于我目前不面临这些问题,我无法过多评论AI代理在这些情况下的有用性,而且我显然因此而特权。不过,我要评论的是,个体层面的好处与集体层面的后果之间通常存在差异。

至于更日常的事务,我遵循数字极简主义哲学,其自然效果是我希望用数字设备完成的事情很少。这或许就是AI代理让我觉得多余的主要原因之一。它们(仍然)局限于数字领域,鉴于我在那里没什么想完成的,我自然不会有需求。此外,正如我在关于外包思考的文章中所述,我认为某些平凡的活动对我们健康有益,因此我不太倾向于自动化流程。我观察到许多人花费大量时间和金钱使用这些工具,但这似乎几乎总是增加了花在电脑上的时间,而不是减少了。

生产力与价值

如上所述,审视并呈现我自己的立场,是为了围绕此类代理的价值展开讨论。我注意到,像西蒙·威利森这样的有影响力人物评论了AI代理带来的明显需求和价值。像OpenClaw这样的AI工具流行表明需求很高,但我不确定能否以流行度来判断其价值。有足够多的例子表明,既受欢迎又有害的事物是存在的。

埃德·齐特龙今年早些时候在BlueSky上表达了对AI有限有用性的强烈观点,质疑AI是否只能让“一些工程师更快地做一些事情”,等等。一位回应者观察到,齐特龙只是在描述生产力提高而没有认识到这一点。在我看来,这里的缺失环节是,齐特龙话里话外是说,开发者生产力的简单提速并不一定带来价值提升,而价值不能以代码行数或开发速度来衡量。毫无疑问,我们对“价值”实际含义的看法存在巨大差异,这在比较例如欧洲和美国的立场时尤为明显。后者通常与生产力增长和经济增长等相对单一的方面相关,但这不一定是我们改善生活质量所需要的。

最近关于AI的文章,如达里奥·阿莫迪的《技术的青春期》和马特·舒默的《大事正在发生》,为炒作推波助澜。舒默敦促每个人都使用AI,并弄清楚如何很好地使用它——例如每天花一定时间使用AI。AI的真正好处对我来说仍不清楚,但我同意意识到这项技术是什么以及它能做什么的重要性。然而,我们即将到达一个点,舒默的建议应该反过来。我坚持每天花时间在没有其他输入的情况下写作和反思——不是来自AI,不是来自搜索引擎或互联网,只是用笔在纸上写作。在我的研究中,我与LLM和AI代理互动很多,我尝试最新模型和工具的新功能。但是,我总会保留一些工作时间用于自己的反思和发展。即使在拥有LLM之前,在线搜索并找到他人的想法和解决方案也太容易了,而不是独立做出努力。

AI研究中的AI代理

我在工作中做的几乎所有事情都是数字化的,因此使用LLM和AI代理的潜力在技术上非常巨大。然而,我在各种用例中的经历好坏参半。请求对散文的反馈对我来说似乎没有益处,至少从长远来看。这似乎是语言模型的完美任务:告诉我文本是否结构良好,是否有意义,论点是否薄弱,哪些可以改进等等。LLM可能真正帮助我改进文本,我并不是说我的散文写得比训练在数字图书馆上的数学模型更好。然而,在我测试LLM用于写作(例如,改进报告草稿)时,LLM经常引导我走上一条让我最终得到不满意结果的道路,一条我不能代表的东西,一条如果不是被“乐于助人的助手”说服去调整文本,我就不会写出的东西。每个人都可以让LLM写些东西,但我是受雇并被信任去写基于我的知识和经验认为是重要和真实的东西。

编程和软件开发是我迄今测试的最有前途的用例。我一直在实验编码代理,如GitHub Copilot、OpenAI的Codex、Claude Code和Goose,使用各种LLM作为引擎。在2025年秋季,我发现编码代理非常笨拙,产生不必要的代码量,很快就使整个项目难以管理。内联自动补全功能似乎比代理方法更可取。现在,情况发生了变化,我可以用编码代理构建较小的原型和项目,同时保持我所需的监督和洞察水平。

我知道许多开发者几个月来一直在使用编码代理进行“放手”开发,自己编写很少或没有代码行。我属于谨慎派,我格外注意了解我的软件项目是如何设计和实现的。下面是我为编码代理测试过的指令示例,根据我的偏好和用例来提高它们的可用性:

核心原则

进行最小、集中的更改。如有疑问,做得更少而不是更多。

代码更改

  • 每个请求优先修改最多1-2个文件
  • 保持更改集中在请求的特定功能上
  • 除非明确要求,否则避免重构工作代码

编写代码之前

说明你的计划:

  1. 你将修改或创建哪个文件
  2. 更改的大致范围
  3. 对现有功能的任何潜在副作用

在继续进行大更改(>100行或多个文件)之前等待批准。

上述指令可能看起来过于严格,但这类指南使编码代理更有帮助,在我看来。

AI代理也被视为加速研究的一种方式。我有一个想法,做一篇相对简单的研究论文,涉及少量文献综述,想看看AI代理表现如何,从数据收集到完成论文。由GPT-5.4驱动的OpenAI Codex,具有“额外高的推理努力”,令人印象深刻地生成了连贯的内容,尽管它并不是很有趣或相关。我还尝试让同一个代理重现我为另一篇论文所做的分析和讨论。同样,它是连贯的,但没有产生有趣的研究。

毫无疑问,在这方面取得了巨大进步。AI代理现在几乎可以处理任何格式的数据集,制作脚本进行分析,生成图表和表格,生成讨论并将全部内容编译成PDF,无需人工干预。即使结果本身并不特别有趣,它仍然意味着数据分析脚本的生成和可视化现在可以快得多。结果的解释并不那么容易外包,即使LLM能生成一致且相关的讨论,仍然存在一个问题:如果没有人类查看结果并认为它们有趣且有用,这些结果是否真的被解释。

随着代理框架和驱动它们的LLM的改进,有可能将更多研究步骤和质量控制外包给代理。基于当前最先进水平,我可以预见一个AI代理能够产生逻辑性和有价值的研究的未来。我更担心人类参与过程的减少。“人在环中”是AI研究中一个流行的术语,但我们应该避免将其视为二元对立,而应更多地视为人类参与的光谱。更大程度的自动化很快会导致更少的人类能动性,而不是一些AI提供商吹捧的自我赋权。现实世界中的研究不仅是理想主义的知识追求,它塑造了我们的社会和政策。在研究过程中保持人类的参与和一致性(包括那些不参与开发前沿AI模型的人类和社区)将是未来的一项重要任务。

一个有趣的附带说明是,在描述我的工作时,我变得非常小心使用“AI研究者”这个词。此时,无法知道这是指研究AI的人类还是做研究的AI代理。