AI News HubLIVE
站内改写3 分钟阅读

LLM驱动的自主智能体

本文深入探讨了以大语言模型(LLM)为核心控制器的自主智能体系统。系统包含规划、记忆和工具使用三大组件:规划通过任务分解和自我反思实现复杂任务处理;记忆分为短期(上下文学习)和长期(外部向量存储);工具使用使智能体能调用外部API。文章还介绍了多个案例(如ChemCrow、生成式智能体)和概念验证(AutoGPT、GPT-Engineer、BabyAGI),并讨论了有限上下文窗口等挑战。

自主智能体是人工智能领域一个极具前景的发展方向,而大语言模型(LLM)作为其核心控制器正展现出巨大潜力。通过将LLM与规划、记忆和工具使用等关键组件相结合,这些智能体能够完成从简单问答到复杂科学实验的各类任务。

规划是智能体处理复杂任务的基础,包含任务分解和自我反思两个关键过程。任务分解通过链式思考(Chain of Thought, CoT)或思维树(Tree of Thoughts, ToT)等方法将大型任务拆解为更小的子目标,使智能体能够逐步解决问题。CoT已成为提升模型在复杂任务上性能的标准提示技术,它指示模型“一步一步思考”,利用更多测试时计算将困难任务分解为更小、更简单的步骤。ToT进一步扩展了CoT,在每个步骤探索多种推理可能性,创建树状结构,并使用广度优先或深度优先搜索来评估状态。自我反思则允许智能体从过去的行动中学习,通过ReAct、Reflexion和链式事后思考(Chain of Hindsight, CoH)等框架不断优化决策。ReAct将推理和行动整合到LLM中,通过扩展动作空间以包含任务特定的离散动作和语言空间,使模型能够与环境交互并生成推理轨迹。Reflexion为智能体配备动态记忆和自我反思能力,使用强化学习设置,其中奖励模型提供二元奖励,智能体根据启发式函数决定是否重置环境。CoH通过向模型展示一系列过去输出及其注释反馈,鼓励模型改进自身输出,类似于算法蒸馏(Algorithm Distillation)在跨回合轨迹上的应用。

记忆系统为智能体提供了持久化知识的能力。短期记忆相当于上下文学习,受限于Transformer模型的上下文窗口长度。而长期记忆则通过外部向量数据库实现,支持最大内积搜索(MIPS)以快速检索相关信息。MIPS常用的近似最近邻算法包括局部敏感哈希(LSH)、随机投影树(ANNOY)、分层可导航小世界图(HNSW)、Facebook AI相似度搜索(FAISS)以及可扩展最近邻(ScaNN)。这些算法在召回率和速度之间取得平衡,使得智能体能够从海量存储中高效检索相关记忆。将人脑记忆类型映射到AI系统:感觉记忆对应原始输入的嵌入表示,短期记忆对应上下文学习,长期记忆对应外部向量存储。

工具使用是智能体超越自身能力的关键。通过调用外部API,智能体可以获取实时信息、执行代码、访问专有数据源等。MRKL(模块化推理、知识和语言)架构将LLM作为路由器,将查询分发给最合适的专家模块,这些模块可以是神经网络或符号系统,如计算器、货币转换器或天气API。实验表明,LLM在正确识别何时及如何使用工具方面仍面临挑战,尤其是处理口头数学问题时。TALM和Toolformer通过微调语言模型学习使用外部工具API,根据API调用注释是否能提升输出质量来扩展数据集。ChatGPT插件和OpenAI API函数调用是实际应用中工具使用能力的良好示例。HuggingGPT是一个框架,使用ChatGPT作为任务规划器,根据模型描述从HuggingFace平台选择模型并基于执行结果生成响应,系统包括任务规划、模型选择、任务执行和响应生成四个阶段。API-Bank是一个评估工具增强型LLM性能的基准,包含53个常用API工具、完整的工作流程和264个带注释的对话,评估代理在三个级别上的工具使用能力:API调用、API检索和API规划。

案例研究展示了这些技术的实际应用。ChemCrow是一个化学领域的智能体,结合了13个专家工具用于有机合成、药物发现和材料设计。有趣的是,尽管基于LLM的评估认为GPT-4和ChemCrow性能相近,但专家的人工评估显示ChemCrow大幅优于GPT-4,这表明使用LLM评估深度专业领域任务存在潜在问题。Boiko等人的研究探索了LLM赋能的科学发现代理,能够自主设计、规划和执行复杂科学实验,例如开发新型抗癌药物,但同时也揭示了与非法药物和生物武器相关的风险。生成式智能体(Generative Agents)模拟了25个虚拟角色在沙盒环境中的生活,每个角色由LLM驱动,具备记忆流、检索模型和反思机制。记忆流记录所有经验,检索模型根据相关性、时效性和重要性提供上下文,反思机制将记忆综合为高级推断以指导未来行为。

概念验证项目如AutoGPT、GPT-Engineer和BabyAGI进一步展示了LLM智能体的潜力。AutoGPT是一个实验性开源应用,展示了大语言模型驱动自主代理的能力,包含互联网访问、长期记忆管理、GPT-3.5代理委托和文件输出等功能,并通过命令列表执行多样化任务。GPT-Engineer根据自然语言描述生成完整代码仓库,先进行任务澄清,然后生成包括所有代码的文件。BabyAGI专注于任务管理和执行,构建了一个简单的任务驱动框架。

尽管前景广阔,当前系统仍面临挑战。最大的限制是有限的上下文窗口,这影响了历史信息的包含和长期学习。系统设计必须在这种有限的通信带宽下工作,而自我反思等机制若能拥有长或无限上下文窗口将大为受益。此外,LLM输出的稳定性和外部工具调用的可靠性也是需要改进的方向。随着研究的深入,这些挑战有望逐步得到解决,LLM驱动的自主智能体将在更多领域发挥重要作用。