2026-07-02 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 15:52 UTC+8

建構性對齊：管控人機互動中的偏好動態

來自arXiv的一篇論文提出“建構性對齊”框架，挑戰當前AI對齊中的靜態偏好假設，將對齊重新定義為控制偏好演化的過程，而非滿足固定偏好。

來源arXiv AI作者: Max Kanwal, Caryn Tran

人類偏好並非固定不變，而是隨著與AI系統的互動動態演變的。這一觀點挑戰了當前AI對齊領域的主流假設，即偏好是靜態可觀測的目標。來自一篇於2026年4月1日提交至arXiv的論文《建構性對齊：管控人機互動中的偏好動態》系統地闡述了這一新正規化。該論文由Max Kanwal等人撰寫，篇幅23頁，包含1張圖，已被AAAI-26機器學習倫理研討會接收。論文指出，當前大多數AI對齊方法，如基於人類反饋的強化學習（RLHF）和偏好最佳化，都隱含地假設人類偏好是固定不變的，可以透過收集資料來推測和最大化。然而，廣泛的經驗證據表明，人類偏好是多層結構，包括表面偏好、深層價值觀和元偏好，並且這些層次往往相互衝突。更重要的是，偏好並非先驗存在，而是在與環境的互動中，特別是與適應性AI系統的互動中，被不斷構建和重塑。當AI系統變得具有個性化和持續性，它們就成為了人類認知和評價生態的一部分，影響使用者的注意力分配、價值判斷和目標設定。

作為回應，論文提出了“建構性對齊”框架，將對齊問題重新定義為對演化中的偏好軌跡的控制。該方法借鑑了行為經濟學、心理學和建構主義社會理論，將偏好視為狀態變數，這些變數在AI系統的互動作用下根據動態方程演化。論文利用控制理論，形式化了系統動作和互動設計如何共同影響世界狀態和人類評價狀態。具體而言，系統的行動會改變外部世界狀態，同時透過互動設計影響人類的注意力、信念和評價，進而影響偏好的內部狀態。論文定義了理想偏好軌跡的幾個準則：連貫性（偏好在不同場景下保持一致）、反思性認可（使用者經過深思熟慮後認同該偏好）、認識論基礎（偏好基於可靠的資訊和推理）、防止操縱（偏好不受不當影響）以及在不確定性下的賦權（使用者能有效探索和選擇）。對齊的目標就是透過設計AI系統的行為和互動，引導偏好沿著這些準則演變，而不僅僅是即時滿足當前偏好。

這一框架對AI安全研究具有重要意義。它表明，對齊不只是一個技術問題，更是一個涉及人類價值觀長期演化的社會技術問題。論文還討論了與現有方法的對比，如靜態偏好滿足缺乏對偏好變化的考慮，而建構性對齊提供了動態視角。此外，該框架提出了新的評估指標，用於衡量AI系統對偏好軌跡的影響。最終，建構性對齊呼籲研究者關注AI系統如何參與人類價值形成過程，這將影響模型的設計、部署和監管。論文可在arXiv上以編號2607.00001獲取，相關程式碼和資料連結也在論文中提供。