2026-06-08 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

人们究竟想要AI做什么？描绘偏好多重性

一项研究分析了来自75个国家1500份开放式回答，发现人们对AI的偏好高度多样且矛盾。除“真实性”外，多数价值观被不到四分之一的受访者提及。即使“真实性”也被赋予不同含义，有些要求来源可查，有些要求专家意见，还有些要求不受欢迎的观点。某些AI能力，如拟人化行为，存在争议。研究指出当前RLHF对齐方法存在根本缺陷，将情境化、有争议的信号压平为普遍偏好模型，构成“认知暴力”。

来源arXiv Computational Linguistics作者: Julia Sep\'ulveda Coelho, Scott A. Hale

人工智能系统通常通过基于人类反馈的强化学习（RLHF）进行微调，以符合人们的偏好和价值观。然而，一篇被2026年ACM公平、问责与透明度会议（FAccT '26）接收的新论文揭示了这种方法的深层缺陷。研究人员Julia Sepúlveda Coelho和Scott A. Hale分析了来自PRISM数据集、涵盖75个国家的1500份开放式回答，探究人们真正希望AI具备哪些特质。

结果显示，人们的偏好极其多样，甚至相互冲突。大多数价值观（如公平、诚实、无害等）被不到四分之一的受访者主动提及。唯一的例外是“真实性”，有49%的受访者明确要求AI提供真实信息。但问题在于，人们对“真实性”的理解截然不同：有些人希望AI给出有来源依据的主张，有些人期望引用专家意见，还有人甚至要求AI表达不受欢迎但真实的观点。这些定义背后是截然不同、可能相互排斥的认知基础。

更有意思的是，某些AI能力引发了明显争议。例如，模型是否应该表现得像人类一样？部分用户喜欢拟人化交互，而另一些人则强烈排斥。同样，AI安全护栏（guardrails）也成了争论焦点，有人视其为必要保护，有人则认为其限制了自由。此外，研究发现在表达偏好时，人们常常做出情境区分：例如，他们希望AI在“默认情况下”如何行事，以及“如果被请求时”又如何响应。这种细微差别是RLHF中常用的二元比较（如“A比B好”）无法捕捉的。

这些发现直指当前对齐实践的根本问题。当49%的用户要求“真实性”，但各自定义不同时，一个单一的奖励模型（reward model）几乎不可能同时满足所有期望。论文指出，尽管用户明确要求准确性，但资源充裕的模型仍然普遍存在高幻觉率，这恰恰说明现有方法未能识别出真正的用户偏好。研究者认为，当前的做法将情境化、充满争议且不完美的信号压平为通用的偏好模型，这种行为被一些学者称为“认知暴力”（epistemic violence）。

这项研究为AI对齐领域提出了严肃警示：在追求“人类价值观”对齐之前，我们首先必须承认并尊重人类偏好的内在多样性。或许，未来的对齐策略应该从“单一目标优化”转向“多目标协商”，或者允许用户根据自身情境动态调整AI行为。