2026-06-08 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

人們究竟想要AI做什麼？描繪偏好多重性

一項研究分析了來自75個國家1500份開放式回答，發現人們對AI的偏好高度多樣且矛盾。除“真實性”外，多數價值觀被不到四分之一的受訪者提及。即使“真實性”也被賦予不同含義，有些要求來源可查，有些要求專家意見，還有些要求不受歡迎的觀點。某些AI能力，如擬人化行為，存在爭議。研究指出當前RLHF對齊方法存在根本缺陷，將情境化、有爭議的訊號壓平為普遍偏好模型，構成“認知暴力”。

來源arXiv Computational Linguistics作者: Julia Sep\'ulveda Coelho, Scott A. Hale

人工智慧系統通常透過基於人類反饋的強化學習（RLHF）進行微調，以符合人們的偏好和價值觀。然而，一篇被2026年ACM公平、問責與透明度會議（FAccT '26）接收的新論文揭示了這種方法的深層缺陷。研究人員Julia Sepúlveda Coelho和Scott A. Hale分析了來自PRISM資料集、涵蓋75個國家的1500份開放式回答，探究人們真正希望AI具備哪些特質。

結果顯示，人們的偏好極其多樣，甚至相互衝突。大多數價值觀（如公平、誠實、無害等）被不到四分之一的受訪者主動提及。唯一的例外是“真實性”，有49%的受訪者明確要求AI提供真實資訊。但問題在於，人們對“真實性”的理解截然不同：有些人希望AI給出有來源依據的主張，有些人期望引用專家意見，還有人甚至要求AI表達不受歡迎但真實的觀點。這些定義背後是截然不同、可能相互排斥的認知基礎。

更有意思的是，某些AI能力引發了明顯爭議。例如，模型是否應該表現得像人類一樣？部分使用者喜歡擬人化互動，而另一些人則強烈排斥。同樣，AI安全護欄（guardrails）也成了爭論焦點，有人視其為必要保護，有人則認為其限制了自由。此外，研究發現在表達偏好時，人們常常做出情境區分：例如，他們希望AI在“預設情況下”如何行事，以及“如果被請求時”又如何響應。這種細微差別是RLHF中常用的二元比較（如“A比B好”）無法捕捉的。

這些發現直指當前對齊實踐的根本問題。當49%的使用者要求“真實性”，但各自定義不同時，一個單一的獎勵模型（reward model）幾乎不可能同時滿足所有期望。論文指出，儘管使用者明確要求準確性，但資源充裕的模型仍然普遍存在高幻覺率，這恰恰說明現有方法未能識別出真正的使用者偏好。研究者認為，當前的做法將情境化、充滿爭議且不完美的訊號壓平為通用的偏好模型，這種行為被一些學者稱為“認知暴力”（epistemic violence）。

這項研究為AI對齊領域提出了嚴肅警示：在追求“人類價值觀”對齊之前，我們首先必須承認並尊重人類偏好的內在多樣性。或許，未來的對齊策略應該從“單一目標最佳化”轉向“多目標協商”，或者允許使用者根據自身情境動態調整AI行為。