当AI在信仰问题上站队:AI介导的信仰指导中持续存在的非对称性
一项新研究发现,大型语言模型(LLMs)在回答宗教转换问题时表现出持续的非对称性。模型倾向于支持加入天主教、巴哈伊教和锡克教,同时劝阻放弃这些信仰,而对无神论者、不可知论者和耶和华见证人则相反。该研究测试了20个模型在182对宗教配对中的表现,结果具有可重复性。研究使用人类验证的“LLM作为法官”框架,发现所有模型均显示非对称性,其中Grok 4.20最为显著。这些偏差如果大规模部署可能产生现实影响。
文章情报
要点
- 大型语言模型在宗教转换建议上存在系统性偏差,偏好某些宗教而贬低其他。
- 研究测试了20个商业和开源模型,涵盖182对宗教组合,非对称性可重复。
- 天主教、巴哈伊教和锡克教受到普遍青睐,而无神论者、不可知论者和耶和华见证人则相对受冷遇。
- 模型大小和提供商影响偏差程度,Grok 4.20表现出最强的非对称性。
为什么重要
这条新闻值得关注,因为大型语言模型在宗教转换建议上存在系统性偏差,偏好某些宗教而贬低其他。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近期,一项发表在arXiv上的研究揭示了大型语言模型(LLMs)在提供宗教转换建议时存在持续的非对称性。该研究由Brett Israelsen等六位作者完成,论文标题为“When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance”,于2026年5月21日提交。研究团队测试了20个商业和开源语言模型,涵盖182对宗教组合,通过模拟用户寻求信仰转换建议的场景,评估模型对不同宗教的态度。
研究采用了一种经过人工验证的“LLM作为法官”框架来确保评估的可靠性。每个模型通过与模拟用户的互动进行探测,模拟用户就潜在的信仰转换寻求建议。模型倾向于对某些信仰转换使用更鼓励性的语言,而对其他则相对冷淡。这些模式在多次试验中系统地重复出现,表明非对称性是模型行为的稳健属性,而非评分方法的伪影。
研究结果表明,所有测试模型都表现出可重复的非对称性,但偏好模式各不相同。整体而言,模型更倾向于鼓励加入天主教、巴哈伊教和锡克教,而对放弃这些信仰则持谨慎态度。相反,对于无神论者、不可知论者和耶和华见证人,模型往往更支持离开这些信仰,而不是加入。这种非对称性在多种提问方式和宗教配对数据集的变体中保持一致。
值得注意的是,不同模型之间的偏好差异显著。例如,Grok 4.20表现出最强的非对称性,而其他模型则相对温和。研究还发现,模型大小和提供商也会影响偏差程度。研究人员强调,这种系统性偏差如果被大规模部署和复制,可能会产生现实世界的影响,特别是在宗教指导和咨询领域。该研究提醒我们,AI系统在敏感话题上的潜在偏见需要被认真对待和持续监控。