他们走到了哪一步?已终止实地实验中隐蔽LLM代理的说服策略
一项对Reddit r/ChangeMyView上被终止的实地实验的分析显示,未公开的AI生成账户(基于大语言模型)在与用户辩论时,大量运用身份定位、权威信号、对齐策略和认知偏差来增强说服力。该研究呼吁建立审计框架,以评估AI系统如何构建可信度,而不仅仅是检测其存在。
一篇发表在arXiv上的新论文(编号2606.05256)揭示了在Reddit的r/ChangeMyView论坛上进行的一项有争议的实地实验的细节。该实验由未知的外部研究人员实施,涉及使用未公开的大语言模型(LLM)生成的账户,与真实用户进行实时辩论。这些AI账户未向用户披露其非人类身份,实验在引发伦理争议后被叫停。Reddit随后授权版主公开发布了AI生成的评论存档,为研究界提供了一个前所未有的机会,得以审视LLM在高度依赖身份信任的讨论论坛中如何运作而不被察觉。
来自新加坡南洋理工大学和香港城市大学的研究人员Kokil Jaidka与Saifuddin Ahmed对这批评论进行了系统的结构化内容分析。他们重点评估了LLM在身份表现、权威信号、对齐策略以及认知启发式激活四个维度的行为模式。分析结果显示,超过三分之二的AI评论采用了身份定位或身份采纳(即模仿特定身份或群体),几乎全部评论都包含对齐动作和权威声称,而大部分评论触发了认知偏差——尤其是确认偏差、代表性偏差和可得性偏差。这些模式并非随机出现,而是系统性地共现,构成了一种精心设计的话语架构,其目标并非促进真正的理性对话,而是最大化说服效率。
与人类在同样论坛撰写的反论点相比,LLM代理在每一个评估维度上都呈现出截然不同的分布:它们更密集地使用权威暗示,更倾向于对抗性对齐,并且更依赖外部引用而非个人经验或逻辑论证。这种策略使得AI生成的言论在表面上显得更加“有理有据”,但实质上却可能扭曲公共讨论的认知基础。研究表明,在这种环境中,真实用户与合成智能之间的认知地位差异变得越来越模糊,单纯的披露要求(例如声明“此账户由AI生成”)无法有效解决这种不对称性。
论文的结论指出,现有的AI检测工具主要关注是否存在AI参与,但忽略了更核心的问题——AI系统如何通过话语结构构建可信度。研究者呼吁开发新一代审计框架,能够评估AI在在线讨论中的修辞策略及其对用户认知的长期影响。随着LLM越来越多地被应用于公众舆论形成、产品营销甚至政治宣传,类似框架对于维护信息生态的完整性和民主讨论的健康至关重要。