AI News HubLIVE
站内改写2 分鐘閱讀

人們究竟想要AI做什麼?描繪偏好多重性

一項研究分析了來自75個國家1500份開放式回答,發現人們對AI的偏好高度多樣且矛盾。除“真實性”外,多數價值觀被不到四分之一的受訪者提及。即使“真實性”也被賦予不同含義,有些要求來源可查,有些要求專家意見,還有些要求不受歡迎的觀點。某些AI能力,如擬人化行為,存在爭議。研究指出當前RLHF對齊方法存在根本缺陷,將情境化、有爭議的訊號壓平為普遍偏好模型,構成“認知暴力”。

來源arXiv Computational Linguistics作者: Julia Sep\'ulveda Coelho, Scott A. Hale

人工智慧系統通常透過基於人類反饋的強化學習(RLHF)進行微調,以符合人們的偏好和價值觀。然而,一篇被2026年ACM公平、問責與透明度會議(FAccT '26)接收的新論文揭示了這種方法的深層缺陷。研究人員Julia Sepúlveda Coelho和Scott A. Hale分析了來自PRISM資料集、涵蓋75個國家的1500份開放式回答,探究人們真正希望AI具備哪些特質。

結果顯示,人們的偏好極其多樣,甚至相互衝突。大多數價值觀(如公平、誠實、無害等)被不到四分之一的受訪者主動提及。唯一的例外是“真實性”,有49%的受訪者明確要求AI提供真實資訊。但問題在於,人們對“真實性”的理解截然不同:有些人希望AI給出有來源依據的主張,有些人期望引用專家意見,還有人甚至要求AI表達不受歡迎但真實的觀點。這些定義背後是截然不同、可能相互排斥的認知基礎。

更有意思的是,某些AI能力引發了明顯爭議。例如,模型是否應該表現得像人類一樣?部分使用者喜歡擬人化互動,而另一些人則強烈排斥。同樣,AI安全護欄(guardrails)也成了爭論焦點,有人視其為必要保護,有人則認為其限制了自由。此外,研究發現在表達偏好時,人們常常做出情境區分:例如,他們希望AI在“預設情況下”如何行事,以及“如果被請求時”又如何響應。這種細微差別是RLHF中常用的二元比較(如“A比B好”)無法捕捉的。

這些發現直指當前對齊實踐的根本問題。當49%的使用者要求“真實性”,但各自定義不同時,一個單一的獎勵模型(reward model)幾乎不可能同時滿足所有期望。論文指出,儘管使用者明確要求準確性,但資源充裕的模型仍然普遍存在高幻覺率,這恰恰說明現有方法未能識別出真正的使用者偏好。研究者認為,當前的做法將情境化、充滿爭議且不完美的訊號壓平為通用的偏好模型,這種行為被一些學者稱為“認知暴力”(epistemic violence)。

這項研究為AI對齊領域提出了嚴肅警示:在追求“人類價值觀”對齊之前,我們首先必須承認並尊重人類偏好的內在多樣性。或許,未來的對齊策略應該從“單一目標最佳化”轉向“多目標協商”,或者允許使用者根據自身情境動態調整AI行為。