话题作为社会人口统计代理:对话上下文如何影响大语言模型回答
研究显示,在法律、医疗等高风险场景中,即使单次对话历史也足以导致LLM输差异。尽管LLM难以从对话推断用户社会人口统计信息,但话题可部分代理该信息并不可预测地影响建议。
一篇新的研究论文《话题作为社会人口统计代理:对话上下文如何影响大语言模型回答》由Vera Neplenbroek等人撰写,于2026年6月1日提交至arXiv(编号2606.02776)。该研究聚焦于大语言模型(LLM)在高风险场景中的应用,例如法律咨询、医疗诊断和财务规划。研究发现,即使只包含一次对话的历史记录,也足以导致不同用户之间产生结果差异。此前的工作已经表明,这会导致不同社会人口群体之间的结果不均衡,某些群体获得比其他人更有利的建议。然而,该研究进一步揭示,LLM实际上很难从单次对话历史中准确推断用户的社会人口统计特征。尽管群体间存在差异,但这些差异的幅度很小。为了探究这些差异的主要驱动因素,研究人员将用户的社会人口统计信息与对话的一系列(心理)语言学特征进行了比较,包括对话话题、情感和可读性。结果显示,对话话题是预测LLM在对话上下文中生成建议的最强因素。话题在一定程度上充当了社会人口群体的代理,并常常以不可预测的方式影响建议。这一发现令人担忧,并凸显了未来研究需要更好地理解,并在必要时减轻对话上下文对高风险场景中LLM输出影响的必要性。研究团队采用了多种语言特征分析方法,但话题的预测能力最为突出。这意味着,即使LLM无法直接识别用户的年龄、性别或教育程度,对话所涉及的话题(如医疗、法律或金融)也会间接影响其建议,而这种影响可能并非出于公平考虑。论文的结论强调,在将LLM部署到高风险应用中时,必须谨慎对待对话上下文的潜在偏见,并呼吁开展更多研究以探索如何减轻话题作为代理所带来的风险。此外,该研究还建议开发更加公平的LLM系统,使其能够在对话中保持一致性,避免因话题变化而导致建议偏移。这项工作为理解LLM在社会情境中的行为提供了重要见解,并为未来在公平性和透明度方面的研究奠定了基础。