2023-06-23 08:00 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

LLM驱动的自主智能体

本文深入探讨了以大语言模型（LLM）为核心控制器的自主智能体系统。系统包含规划、记忆和工具使用三大组件：规划通过任务分解和自我反思实现复杂任务处理；记忆分为短期（上下文学习）和长期（外部向量存储）；工具使用使智能体能调用外部API。文章还介绍了多个案例（如ChemCrow、生成式智能体）和概念验证（AutoGPT、GPT-Engineer、BabyAGI），并讨论了有限上下文窗口等挑战。

来源Lilian Weng

自主智能体是人工智能领域一个极具前景的发展方向，而大语言模型（LLM）作为其核心控制器正展现出巨大潜力。通过将LLM与规划、记忆和工具使用等关键组件相结合，这些智能体能够完成从简单问答到复杂科学实验的各类任务。

规划是智能体处理复杂任务的基础，包含任务分解和自我反思两个关键过程。任务分解通过链式思考（Chain of Thought, CoT）或思维树（Tree of Thoughts, ToT）等方法将大型任务拆解为更小的子目标，使智能体能够逐步解决问题。CoT已成为提升模型在复杂任务上性能的标准提示技术，它指示模型“一步一步思考”，利用更多测试时计算将困难任务分解为更小、更简单的步骤。ToT进一步扩展了CoT，在每个步骤探索多种推理可能性，创建树状结构，并使用广度优先或深度优先搜索来评估状态。自我反思则允许智能体从过去的行动中学习，通过ReAct、Reflexion和链式事后思考（Chain of Hindsight, CoH）等框架不断优化决策。ReAct将推理和行动整合到LLM中，通过扩展动作空间以包含任务特定的离散动作和语言空间，使模型能够与环境交互并生成推理轨迹。Reflexion为智能体配备动态记忆和自我反思能力，使用强化学习设置，其中奖励模型提供二元奖励，智能体根据启发式函数决定是否重置环境。CoH通过向模型展示一系列过去输出及其注释反馈，鼓励模型改进自身输出，类似于算法蒸馏（Algorithm Distillation）在跨回合轨迹上的应用。

记忆系统为智能体提供了持久化知识的能力。短期记忆相当于上下文学习，受限于Transformer模型的上下文窗口长度。而长期记忆则通过外部向量数据库实现，支持最大内积搜索（MIPS）以快速检索相关信息。MIPS常用的近似最近邻算法包括局部敏感哈希（LSH）、随机投影树（ANNOY）、分层可导航小世界图（HNSW）、Facebook AI相似度搜索（FAISS）以及可扩展最近邻（ScaNN）。这些算法在召回率和速度之间取得平衡，使得智能体能够从海量存储中高效检索相关记忆。将人脑记忆类型映射到AI系统：感觉记忆对应原始输入的嵌入表示，短期记忆对应上下文学习，长期记忆对应外部向量存储。

工具使用是智能体超越自身能力的关键。通过调用外部API，智能体可以获取实时信息、执行代码、访问专有数据源等。MRKL（模块化推理、知识和语言）架构将LLM作为路由器，将查询分发给最合适的专家模块，这些模块可以是神经网络或符号系统，如计算器、货币转换器或天气API。实验表明，LLM在正确识别何时及如何使用工具方面仍面临挑战，尤其是处理口头数学问题时。TALM和Toolformer通过微调语言模型学习使用外部工具API，根据API调用注释是否能提升输出质量来扩展数据集。ChatGPT插件和OpenAI API函数调用是实际应用中工具使用能力的良好示例。HuggingGPT是一个框架，使用ChatGPT作为任务规划器，根据模型描述从HuggingFace平台选择模型并基于执行结果生成响应，系统包括任务规划、模型选择、任务执行和响应生成四个阶段。API-Bank是一个评估工具增强型LLM性能的基准，包含53个常用API工具、完整的工作流程和264个带注释的对话，评估代理在三个级别上的工具使用能力：API调用、API检索和API规划。

案例研究展示了这些技术的实际应用。ChemCrow是一个化学领域的智能体，结合了13个专家工具用于有机合成、药物发现和材料设计。有趣的是，尽管基于LLM的评估认为GPT-4和ChemCrow性能相近，但专家的人工评估显示ChemCrow大幅优于GPT-4，这表明使用LLM评估深度专业领域任务存在潜在问题。Boiko等人的研究探索了LLM赋能的科学发现代理，能够自主设计、规划和执行复杂科学实验，例如开发新型抗癌药物，但同时也揭示了与非法药物和生物武器相关的风险。生成式智能体（Generative Agents）模拟了25个虚拟角色在沙盒环境中的生活，每个角色由LLM驱动，具备记忆流、检索模型和反思机制。记忆流记录所有经验，检索模型根据相关性、时效性和重要性提供上下文，反思机制将记忆综合为高级推断以指导未来行为。

概念验证项目如AutoGPT、GPT-Engineer和BabyAGI进一步展示了LLM智能体的潜力。AutoGPT是一个实验性开源应用，展示了大语言模型驱动自主代理的能力，包含互联网访问、长期记忆管理、GPT-3.5代理委托和文件输出等功能，并通过命令列表执行多样化任务。GPT-Engineer根据自然语言描述生成完整代码仓库，先进行任务澄清，然后生成包括所有代码的文件。BabyAGI专注于任务管理和执行，构建了一个简单的任务驱动框架。

尽管前景广阔，当前系统仍面临挑战。最大的限制是有限的上下文窗口，这影响了历史信息的包含和长期学习。系统设计必须在这种有限的通信带宽下工作，而自我反思等机制若能拥有长或无限上下文窗口将大为受益。此外，LLM输出的稳定性和外部工具调用的可靠性也是需要改进的方向。随着研究的深入，这些挑战有望逐步得到解决，LLM驱动的自主智能体将在更多领域发挥重要作用。