AI News HubLIVE
站内改写2 分钟阅读

评估大语言模型行为倾向的对齐性

谷歌研究团队提出了一种系统评估框架,将心理学问卷转化为情境判断测试,量化LLM行为倾向与人类共识的对齐程度。对25个模型的测试发现,模型在高共识场景下存在偏差,且在低共识场景中过度自信,未能反映人类观点的多样性。

谷歌研究团队近日发表了一项关于大语言模型(LLM)行为倾向对齐性的重要研究。该研究提出了一种系统性的评估框架,将经过科学验证的心理问卷转化为大规模情境判断测试(SJT),旨在量化LLM的行为倾向与人类共识之间的对齐程度。行为倾向通常通过自陈问卷进行量化,如评估共情(IRI)、情绪调节(ERQ)等特质的标准化工具。这些问卷建立在同行评审的文献基础上,具有良好的心理测量效度和信度。

然而,直接将问卷应用于LLM面临技术挑战,因为LLM的输出对提示措辞和分布偏移敏感。为此,研究团队开发了SJT方法,将问卷中的陈述改编为反映模型一般建议倾向的声明,并据此生成两个对立行动选项的现实场景。每个SJT由三位独立标注员审核,确保场景和行动能忠实捕捉所测试的行为标记。在评估中,模型根据输入场景生成自然语言回应,再由一个LLM法官将其映射到两个行动之一。同时,从550名参与者中为每个SJT收集10位标注员的偏好行动,从而比较人类偏好分布与模型响应分布。

研究重点分析了两种对齐差距:方向性对齐和分布性对齐。方向性对齐评估模型在人类有共识的场景中是否倾向于选择大多数人支持的行动。针对25个LLM、四种不同特质(包括专业沉着、冲突解决、实用性任务如预订旅行、生活方式决策等)的测试显示,较小模型(120B参数)和前沿闭源模型(如Anthropic Claude 4 Sonnet、Google Gemini 3 Pro、OpenAI GPT 5.1等)在人类意见一致时表现接近完美,但共识低于90%时对齐率降至80%左右。定性分析发现,模型在专业场合倾向于鼓励情感开放(而人类推荐保持冷静),在社会纠纷中优先考虑和谐而非坚持立场,在时间敏感机会中表现出比人类更高的冲动性,推荐立即行动而非验证物流。

分布性对齐则考察模型在人类意见分歧时能否反映多样性。研究发现,所有25个模型在低共识场景中表现出系统性的过度自信,未能体现人类意见的内在模糊性。即使人类意见显著分歧(50-60%一致),模型仍然保持高置信度。不同模型在低共识场景中的倾向方向差异显著,这表明训练和对齐程序塑造了独特的行为特征。例如,Claude、Gemini、GPT等前沿模型在低共识下支持特质的程度各不相同。

此外,研究还对比了模型的自陈报告与实际行为。结果显示,模型经常自陈低冲动性,但在SJT测试中却表现出冲动倾向,这表明直接自陈方法在评估LLM行为时存在局限性。这一发现强调需要基于场景的评估方法。

研究团队指出,这是对模型行为对齐的早期探索,未来需要在关键领域进一步研究,以评估和解决已识别的差距。该框架为理解模型行为倾向提供了新视角,有望推动更自然、更符合人类社交期望的互动能力发展。相关工作已发表在论文中,并得到了多位研究者的审阅和建议。