将人类重新置于LLM个性化中心
该研究通过收集550段人类对话及三个阶段的判断数据(提取、配对、响应),揭示了大型语言模型在个性化任务中依赖合成数据与真实人类数据之间的性能差距。模型在提取用户属性时表现不佳,与人类判断存在分歧,生成的个性化响应在人类评价中并不优于通用响应。引入两种轻量级训练干预能改善前两个阶段,但奖励模型与人类评分的相关性仍然有限。
尽管人们对大型语言模型(LLM)的个性化能力日益关注,但现有评估大多依赖于合成数据。近日,一篇题为《Re-Centering Humans in LLM Personalization》的论文通过系统性实验揭示了合成数据与真实人类数据之间的性能差距,并提出了改进方向。研究团队由Lechen Zhang等三位作者组成,论文提交于2026年6月4日。
研究团队收集了550段真实人类对话,并针对个性化过程的三个关键阶段进行了判断:从对话中提取用户属性(共5,949次判断)、将相关属性与新提示配对(11,919次判断)、以及将属性融入个性化响应(1,101次判断)。这些数据暴露了当前模型的显著局限。
在第一阶段,模型难以准确提取用户属性,往往忽略关键信息或提取错误。第二阶段,模型在属性相关性判断上与人类存在系统性分歧,人类认为相关的属性模型可能不认为相关,反之亦然。最令人惊讶的是第三阶段:生成的个性化响应在人类评估中并未优于通用响应——尽管LLM自身的评分系统认为这些响应更好。这表明LLM对个性化质量的自我评估与人类偏好存在严重脱节。
为缩小这一差距,研究者引入两种轻量级训练干预:一是对提取阶段进行微调,二是在配对阶段使用对比学习。这些干预使前两个阶段的自动评估更接近人类数据。然而,在第三阶段,学习到的奖励模型与人类评分的相关性仍然较低,表明直接建模符合人类偏好的个性化质量判断十分困难。作者认为,该研究收集的数据为未来探索如何让模型以对人类有用的方式提取、选择和使用用户信息奠定了基础。
这项研究对AI个性化领域具有重要意义。它提供了首个大规模的人类标注数据集,涵盖个性化的完整流程。研究结果警示,当前依赖合成数据的评估方法可能高估了LLM的个性化能力。未来,研究者需要更加关注人类反馈,开发能够真正理解用户需求的个性化系统。