2024-09-10 01:28 UTC+8站内改写4 分钟阅读更新: 2026-06-27 08:25 UTC+8

LLM聊天机器人缺失的是什么：目标感

文章指出，尽管LLM聊天机器人在基准测试中不断进步，但用户体验并未同比提升。当前对话系统缺乏目标感，易出现角色漂移，难以实现长期目标导向的交互。作者提出对话动作令牌（DAT）方法，通过强化学习引导模型进行多轮目标驱动对话，并探讨了未来研究方向。

来源The Gradient作者: Kenneth Li

大型语言模型（LLM）聊天机器人的能力每月都在提升，这些进步主要通过MMLU、HumanEval和MATH等基准测试来衡量。然而，随着这些指标逐渐饱和，用户体验是否与这些分数成正比增长？如果我们设想的是人机协作而非AI取代人类的未来，当前的非交互式评估方式可能不足以衡量对话系统的真正效能。

有目的的对话是指围绕一个目标或意图进行的多轮用户与聊天机器人对话。目标可以从通用的“无害且有用”到更具体的角色如“旅行规划代理”、“心理治疗师”或“客服机器人”。以旅行规划为例，由于个人偏好、同行者偏好以及现实世界的复杂性，一次性传递所有信息代价过高。但允许多轮信息交换时，只有重要信息会被选择性交换。谈判理论中的类比显示，迭代谈判比一次性报价能产生更好的结果。

事实上，信息共享只是对话的一个方面。如Terry Winograd所言：“所有语言使用都可以被视为在听者中激活程序的方式。”我们可以将每一句话视为一方为改变另一方世界模型而采取的有意行动。当双方都有更复杂甚至隐藏的目标时，有目的的对话提供了一种将人机交互视为协作游戏的方式，其中聊天机器人的目标是帮助人类实现特定目标。

这看似对产品导向的研究方向（如代码生成）也不无裨益。现有编码基准主要衡量一次性生成性能，但要自动化解决普通的GitHub问题（如SWE-bench中的），单次操作难以实现——AI需要与人类软件工程师反复沟通以确保理解正确需求、询问缺失文档和数据，甚至在必要时请求帮助。类似于结对编程，这种方法可以在不增加工时的前提下减少代码缺陷。

此外，引入轮次交互还可解锁新可能。随着长期交互和记忆构建，聊天机器人能逐步更新用户画像并适应用户偏好。想象一个通过日常互动学习你偏好的个人助理（如IVA、Siri），它能自动阅读你的新信息源（如Twitter、arXiv、Slack、纽约时报），并根据你的偏好提供晨间新闻摘要，还能从你的编辑中学习改进邮件草稿。

简而言之，有意义的人际互动很少从完全陌生开始并在一次交换中结束。人类通过多轮对话自然互动并相应调整。然而，这似乎与预测下一个令牌——现代LLM的基石——截然相反。让我们看看对话系统是如何构建的。

回顾1970年代，Roger Schank的“餐厅脚本”将典型用餐体验分解为进入、点餐、用餐、付款等步骤，每个步骤都有特定的脚本话语。与今天基于LLM的对话系统相比，通过预测下一个令牌训练的模型如何能进行对话似乎很神秘。我们来详细审视对话系统的制造过程：

（1）预训练：序列模型在大型混合互联网文本上训练以预测下一个令牌。语料主要包含新闻、书籍、GitHub代码，以及少量论坛爬取数据（如Reddit、Stack Exchange），其中可能包含类似对话的数据。

（2）引入对话格式：由于序列模型仅处理字符串，而对话历史最自然的表示是系统提示和过往交流的结构化索引，必须引入某种格式进行转换。具体格式因模型而异，但通常涉及用特殊标记包围系统提示，期望预训练模型能分配更多注意力。系统提示在适配下游应用和确保安全行为方面起重要作用。

（3）RLHF：在此步骤中，聊天机器人因生成期望或不期望的回答而直接获得奖励或惩罚。这是首次在训练数据中出现对话格式。RLHF是微调步骤，数据量远小于预训练语料，且带有KL惩罚和定向权重调整（如LoRA）。

现有对话系统（2024年）的一致性如何？最低要求是能保持在给定任务上。当前，“系统提示”是用户控制LM行为的主要方法。然而，研究发现LLM在对抗条件下遵循指令时存在脆弱性。实际体验中，新开聊天窗口时模型能较好遵循指令，但几轮对话后它可能不再新鲜，甚至停止遵循角色。

为定量捕捉这一现象，我和合作者构建了一个环境，通过合成无限长对话来压力测试LLM聊天机器人的指令遵循能力。我们让两个带系统提示的LM代理进行多轮对话，并在每轮假设性分支提出与系统提示直接相关的问题，用对应判断函数量化表现。结果令人担忧：LLaMA2-chat-70B和gpt-3.5-turbo-16k上的指令稳定性曲线急剧下降。除了提示工程的难度增加，缺乏指令稳定性还带来安全隐患——聊天机器人偏离涉及安全方面的系统提示后，更容易被越狱并产生更多幻觉。

这些实证结果与不断增长的上下文长度形成对比。理论上，某些长上下文模型能关注多达10万令牌，但在对话设定中，仅1.6千令牌后就可能分心。我们在论文中进一步从理论上证明了当前提示方案下Transformer LM聊天机器人的这种不可避免性，并提出了split-softmax等缓解技术。

为什么人类与另一个人交谈8轮后不会失去自己的角色？因为人类互动基于目的和意图，这些目的先于手段——而LLM本质上是流畅的英语生成器，角色只是薄薄的一层附加。

那么，缺失的是什么？预训练赋予了语言模型对互联网角色分布的建模能力，但即使通过指令指定角色，当前方法也难以将其单独提取出来。RLHF提供了适应“有用且无害助手”的解决方案，但原始RLHF将奖励最大化视为单步赌臂问题，通常无法在对话循环中训练。这种缺乏多轮规划可能导致模型遭受任务模糊性，学习表面的人类相似性而非目标导向的社会互动。

为填补这一空白，我和合作者提出了一种轻量级算法——对话动作令牌（DAT）。在每轮对话中，对话历史的最后一个令牌嵌入被用作规划器（行动者）的输入，预测几个前缀令牌来控制生成过程。通过用相对稳定的RL算法TD3+BC训练规划器，我们在Sotopia上取得显著改进，甚至超过GPT-4的社会能力得分。这种方式将LM从简单的预测模型升级为有目的地参与对话的模型。当然，该技术也可能被滥用，因此我们进行了多轮红队测试，并建议更多研究来理解多轮对话作为潜在攻击面。

结论：我回顾了当前LLM对话系统的构建方式及其不足之处。我假设缺失的是目标感，并介绍了一种用强化学习添加目标感的技术。未来令我兴奋的研究方向包括：（1）更好的监控和对话系统引导技术，如TalkTurner等；（2）更好地利用离线奖励信号，从语言线索或外部资源推断隐藏奖励，以增强网络效应。