建构性对齐:管控人机交互中的偏好动态
来自arXiv的一篇论文提出“建构性对齐”框架,挑战当前AI对齐中的静态偏好假设,将对齐重新定义为控制偏好演化的过程,而非满足固定偏好。
人类偏好并非固定不变,而是随着与AI系统的互动动态演变的。这一观点挑战了当前AI对齐领域的主流假设,即偏好是静态可观测的目标。来自一篇于2026年4月1日提交至arXiv的论文《建构性对齐:管控人机交互中的偏好动态》系统地阐述了这一新范式。该论文由Max Kanwal等人撰写,篇幅23页,包含1张图,已被AAAI-26机器学习伦理研讨会接收。论文指出,当前大多数AI对齐方法,如基于人类反馈的强化学习(RLHF)和偏好优化,都隐含地假设人类偏好是固定不变的,可以通过收集数据来推测和最大化。然而,广泛的经验证据表明,人类偏好是多层结构,包括表面偏好、深层价值观和元偏好,并且这些层次往往相互冲突。更重要的是,偏好并非先验存在,而是在与环境的互动中,特别是与适应性AI系统的互动中,被不断构建和重塑。当AI系统变得具有个性化和持续性,它们就成为了人类认知和评价生态的一部分,影响用户的注意力分配、价值判断和目标设定。
作为回应,论文提出了“建构性对齐”框架,将对齐问题重新定义为对演化中的偏好轨迹的控制。该方法借鉴了行为经济学、心理学和建构主义社会理论,将偏好视为状态变量,这些变量在AI系统的交互作用下根据动态方程演化。论文利用控制理论,形式化了系统动作和交互设计如何共同影响世界状态和人类评价状态。具体而言,系统的行动会改变外部世界状态,同时通过互动设计影响人类的注意力、信念和评价,进而影响偏好的内部状态。论文定义了理想偏好轨迹的几个准则:连贯性(偏好在不同场景下保持一致)、反思性认可(用户经过深思熟虑后认同该偏好)、认识论基础(偏好基于可靠的信息和推理)、防止操纵(偏好不受不当影响)以及在不确定性下的赋权(用户能有效探索和选择)。对齐的目标就是通过设计AI系统的行为和交互,引导偏好沿着这些准则演变,而不仅仅是即时满足当前偏好。
这一框架对AI安全研究具有重要意义。它表明,对齐不只是一个技术问题,更是一个涉及人类价值观长期演化的社会技术问题。论文还讨论了与现有方法的对比,如静态偏好满足缺乏对偏好变化的考虑,而建构性对齐提供了动态视角。此外,该框架提出了新的评估指标,用于衡量AI系统对偏好轨迹的影响。最终,建构性对齐呼吁研究者关注AI系统如何参与人类价值形成过程,这将影响模型的设计、部署和监管。论文可在arXiv上以编号2607.00001获取,相关代码和数据链接也在论文中提供。