AI News HubLIVE
站内改写2 分钟阅读

人们究竟想要AI做什么?描绘偏好多重性

一项研究分析了来自75个国家1500份开放式回答,发现人们对AI的偏好高度多样且矛盾。除“真实性”外,多数价值观被不到四分之一的受访者提及。即使“真实性”也被赋予不同含义,有些要求来源可查,有些要求专家意见,还有些要求不受欢迎的观点。某些AI能力,如拟人化行为,存在争议。研究指出当前RLHF对齐方法存在根本缺陷,将情境化、有争议的信号压平为普遍偏好模型,构成“认知暴力”。

来源arXiv Computational Linguistics作者: Julia Sep\'ulveda Coelho, Scott A. Hale

人工智能系统通常通过基于人类反馈的强化学习(RLHF)进行微调,以符合人们的偏好和价值观。然而,一篇被2026年ACM公平、问责与透明度会议(FAccT '26)接收的新论文揭示了这种方法的深层缺陷。研究人员Julia Sepúlveda Coelho和Scott A. Hale分析了来自PRISM数据集、涵盖75个国家的1500份开放式回答,探究人们真正希望AI具备哪些特质。

结果显示,人们的偏好极其多样,甚至相互冲突。大多数价值观(如公平、诚实、无害等)被不到四分之一的受访者主动提及。唯一的例外是“真实性”,有49%的受访者明确要求AI提供真实信息。但问题在于,人们对“真实性”的理解截然不同:有些人希望AI给出有来源依据的主张,有些人期望引用专家意见,还有人甚至要求AI表达不受欢迎但真实的观点。这些定义背后是截然不同、可能相互排斥的认知基础。

更有意思的是,某些AI能力引发了明显争议。例如,模型是否应该表现得像人类一样?部分用户喜欢拟人化交互,而另一些人则强烈排斥。同样,AI安全护栏(guardrails)也成了争论焦点,有人视其为必要保护,有人则认为其限制了自由。此外,研究发现在表达偏好时,人们常常做出情境区分:例如,他们希望AI在“默认情况下”如何行事,以及“如果被请求时”又如何响应。这种细微差别是RLHF中常用的二元比较(如“A比B好”)无法捕捉的。

这些发现直指当前对齐实践的根本问题。当49%的用户要求“真实性”,但各自定义不同时,一个单一的奖励模型(reward model)几乎不可能同时满足所有期望。论文指出,尽管用户明确要求准确性,但资源充裕的模型仍然普遍存在高幻觉率,这恰恰说明现有方法未能识别出真正的用户偏好。研究者认为,当前的做法将情境化、充满争议且不完美的信号压平为通用的偏好模型,这种行为被一些学者称为“认知暴力”(epistemic violence)。

这项研究为AI对齐领域提出了严肃警示:在追求“人类价值观”对齐之前,我们首先必须承认并尊重人类偏好的内在多样性。或许,未来的对齐策略应该从“单一目标优化”转向“多目标协商”,或者允许用户根据自身情境动态调整AI行为。