通过背景故事集为语言模型创建虚拟人格
BAIR研究团队提出Anthology方法,通过为大型语言模型生成详细的人物背景故事,使其能够模拟具有代表性、一致性和多样性的虚拟人格。该方法在逼近真实人类调查数据方面优于传统条件设置,为社会科学研究提供了成本效益高的替代方案。
近年来,大型语言模型(LLM)在文本生成方面展现出惊人能力,但如何让它们模拟特定人类个体的声音,而非海量文本的平均混合,仍是研究难题。BAIR研究团队在最新论文中提出了Anthology方法,通过为LLM提供丰富的个人背景故事,使其能够生成代表不同个体特征和价值观的回应。
传统方法通常仅依赖人口统计变量(如年龄、性别、教育水平)来设置LLM的虚拟人格,但这容易导致刻板印象,且无法捕捉个体层面的差异。Anthology的关键创新在于,它使用LLM自身生成大量自然主义的背景故事——通过“告诉我关于你自己”等开放式提示,模型会产出包含文化、社会经济背景和生活哲学等细节的叙述。这些背景故事随后被用于条件化LLM,使其在回应时更像一个真实的个体。
研究团队在Pew研究中心的“美国趋势小组”(ATP)的三项调查数据上评估了Anthology的性能,包括Wave 34、92和99。他们比较了多种条件设置方法,包括仅使用人口统计标签、简短的背景故事等。评估指标包括代表性(Wasserstein距离)、一致性(Frobenius范数)和内部一致性(Cronbach's alpha)。为了计算这些指标的近似下限,他们将人类样本随机分成两组并重复100次。结果显示,Anthology在所有指标上均优于其他方法,且无论使用Llama-3-70B还是Mixtral-8x22B模型,结论一致。在匹配方法上,贪婪匹配比最大权重匹配表现更好,因为后者的一对一对应约束在虚拟用户数量有限时会导致较低的人口统计相似性。这些结果说明,丰富的背景故事能够激发更细致的响应。
尽管Anthology在提高虚拟人格的逼真度方面前景广阔,但研究者也指出了潜在风险。例如,生成的背景故事可能延续偏见,或在不经意间泄露敏感信息。因此,结果需谨慎解读,且应遵循伦理准则。
未来,研究团队计划扩展背景故事库的多样性和规模,探索自由形式回应生成(而非仅限于多项选择),并模拟长期行为变化。这些方向将为社会科学研究带来新的可能性,但同时也伴随着技术挑战。Anthology的提出标志着LLM在模拟人类行为方面迈出了重要一步,有望为用户研究、民意调查等领域提供更高效、更符合伦理的替代工具。