2026-05-30 20:44 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

让AI聊天机器人更有帮助会削弱其模拟人类行为的能力

一项大规模研究发现，将语言模型训练成有用的聊天助手会削弱它们模拟人类行为的能力，且随着模型迭代，这一差距不断增大。即使是使用人口统计信息来引导模型，也无法提高个体行为预测的准确性。

来源The Decoder作者: Jonathan Kemper

一项大规模研究显示，将原始语言模型训练成有用的聊天机器人的过程，也会削弱它们模仿人类行为的能力。这种效应随着每一代新模型的推出而加剧。

语言模型越来越多地被用作人类测试对象的替代品，以预测对政策措施的反应、模拟精神科医生的临床培训，或建模学生的学习方式。然而，一项由国际研究联盟（包括赫尔姆霍兹慕尼黑中心的科学家）进行的新研究得出了一个令人不安的发现：正是那些将语言模型转变为有用助手的训练步骤，使它们在建模人类行为方面表现更差。

该研究基于Psych-201数据集，该数据集包含了来自行为实验的转录文本，涵盖约20.8万名参与者和约2600万条个体反应，规模是此前任何类似数据集的数倍。每个数据点记录了参与者在实验中的完整过程，以及详细的元数据，如年龄、国籍、问卷回答和其他特征。该数据集通过公开研究合作的方式由来自超过35个机构的研究人员共同构建。

研究人员比较了Qwen3、Llama3和OLMo 3系列模型，测试了基础模型及其各种后训练变体。基础模型仅训练用于预测文本中的下一个词。而额外的训练则产生了针对指令遵循、逐步推理或图像处理等优化版本的模型。评估指标是：每个模型预测人类参与者实际答案的准确程度。

结果在所有模型系列和规模中一致：基础模型在预测人类行为方面优于其后训练版本。这种效应出现在每一种常见的训练目标中，对推理模型的影响最为严重，其次是指令微调和视觉扩展。在几乎每一次直接比较中，基础模型都优于其专门化的变体。

一种常见的反驳观点是：助手模型可能只是更确定性地回答，未能捕捉人类行为的自然分布。研究人员通过在具有离散答案选项的任务子集上进行准确性分析验证了这一点。后训练模型的表现仍然更差，因此更高的确定性不可能是唯一解释。

虽然基础模型从Qwen2到Qwen2.5再到Qwen3稳步改进，在预测人类行为方面代际提升，但它们与派生助手模型之间的差距却在持续扩大。后训练的持续进步正在加剧与人类行为的分歧。

最大的失真出现在语言任务和推理中。研究人员给出了一个合理的解释：基础模型本质上是人类语言的模型，因此对于语言处理任务校准良好。后训练技术（如基于人类反馈的强化学习）将它们推离了原始目标，转向更用户友好或规范正确的答案。推理方面也是如此。人类决策受启发式和系统性偏见的影响，基础模型显然捕捉到了这些特征。而推理训练则优化了逻辑正确的答案，从而覆盖了行为模拟所需的人类特质。

第二个发现涉及一种广泛使用的技术：向语言模型提供参与者特定信息，使其扮演特定角色。在这项研究中，这种方法以访谈形式呈现，在实验前附加每个人的详细人口统计信息。提示中包括年龄、性别、国籍、教育程度、临床诊断和问卷得分（如果可用）。结果效应几乎为零。即使将分析限制在发展心理学实验（其中年龄差异应具有信息量）中也是如此。早期研究表明，角色提示可以在群体水平上产生类似人类的响应分布，但新研究质疑它们是否能真正预测个体行为，还是仅仅在表面上看似合理。

作者将他们的发现视为一个已知问题的变体：针对特定目标的额外训练可能会削弱预训练中获得的能力。为了测试这是否是一个硬性限制，他们考察了Centaur——一个专门在部分行为数据上微调的模型。Centaur在未参与训练的新任务上也表现出与人类行为更高的一致性。因此，额外训练确实有帮助，但仅当它针对行为建模而非逻辑正确性时。

对于研究实践而言，结论很明确：方便易用的助手模型并非行为模拟的最佳选择。研究人员建议使用原始基础模型或专门针对行为模拟训练的变体。代码和数据可在Hugging Face和GitHub上获取。

聊天机器人模型作为数字测试对象的缺陷并不新鲜。最近对九个开源语言模型的研究发现，优化更拟人化的输出会以牺牲事实准确性为代价，并且一个分类器能以70%至80%的准确率识别AI回应。角色技巧的效果也比预期差。另一项研究发现，模型几乎无法按命令扮演弱或强的学习者，其命中率变化不到一个百分点。而在推理方面，深度差距仍然存在：对超过17万个推理轨迹的分析表明，推理模型的思维方式与人类不同，陷入了一种顺序自动驾驶模式。