大型行动模型(LAM)与智能体LLM:真正的区别是什么?
大型行动模型(LAM)和智能体LLM是AI中两个重要的概念,但经常被混淆。本文解析了它们的区别:智能体LLM通过外部编排层获得行动能力,而LAM从训练之初就以生成正确、可执行的动作为目标。文章还提供了何时使用每种系统的实用指南。
当你对AI说“润色我的邮件并发送”时,不同的系统会有截然不同的反应:一个聊天机器人只会给你一段说明;智能体LLM会尝试打开你的邮箱,但有时会出错;而LAM则直接完成,确认并继续。这个场景揭示了大语言模型(LLM)与大型行动模型(LAM)之间的关键区别,这是当前AI领域最实用但最模糊的区分之一。
智能体LLM本质上是一个放置在推理循环中的语言模型,配有工具调用能力。它遵循“推理-行动-观察”的循环,但行动能力完全依赖于外部框架。一旦去除框架,它就变回一个聊天机器人。这种架构的优点是灵活,同一个模型可以完成多种任务;但缺点是可靠性不足,容易选错工具、产生幻觉参数或陷入死循环。例如,一个智能体LLM可能错误地调用删除函数而不是发送函数,导致严重后果。
而LAM采用不同的方法:从训练第一天起,生成正确、可执行的行动就是首要目标。训练数据不是网络文本,而是行动轨迹——包括点击、API调用、UI交互和多步骤任务完成。例如,Salesforce的xLAM-1B模型只有10亿参数,却在函数调用基准上超越了175倍大的GPT-3.5。LAM的“感知-规划-行动-学习”循环使其在固定行动空间中表现出色。
实际应用中,最强大的生产系统不会二选一,而是结合两者:用智能体LLM进行推理和开放解释,然后将高风险的行动(如支付、数据更改)通过受保护的LAM执行。选择哪个取决于行动空间是开放还是封闭:若行动已知且固定,LAM更可靠、更快速、更经济;若任务开放或不明,智能体LLM提供更大的灵活性。常见问题包括:LAM不仅是微调后的LLM;小团队应从智能体LLM开始;两者互补,不会互相淘汰。