正交性之后:美德伦理智能体与AI对齐
本文论证理性的人没有目标,理性的AI也不应有目标。人类行为之所以理性,并非因为我们将其指向某些最终“目标”,而是因为我们将行为与实践对齐。文章提出“幸福理性”概念,认为AI对齐应将AI智能体的审议与基于实践的逻辑共享相同“类型签名”,并探讨这种框架对AI安全、透明度、可修正性等核心属性的意义。
本文是一篇关于AI对齐的深刻论文,提出了颠覆性的观点:理性的人没有目标,理性的AI也不应该有目标。作者认为,人类行为的理性并非源自对最终目标的追求,而是源于将行动与实践对齐。实践是行动、行动倾向、行动评价标准和行动资源构成的网络,它们自我结构化、清晰化、发展并自我促进。如果希望AI真正支持、协作甚至服从人类能动性,AI智能体的审议必须与人类基于实践的逻辑共享相同的“类型签名”。
作者指出,这些问题不仅关乎将AI与人类繁荣等宏大伦理理想对齐,也关乎将AI与核心安全属性(如透明度、有用性、无害性和可修正性)对齐。对于将“无害”或“可修正”解释为目标或规则的智能体而言,这些概念是脆弱和不稳定的,但若将其解释为行动网络中的动态,则变得自然。
文章的核心概念是“幸福理性”(eudaimonic rationality),源自亚里士多德的“eudaimonia”(积极理性的人类繁荣)。作者区分了两类理性范式:有效利他主义式优化(结果主义理性)和幸福理性。幸福理性强调在实践中的卓越参与,典型特征为“以x的方式促进x”——数学卓越通过数学卓越促进数学,善意通过善意促进善意。
论文结构清晰:第一部分通过数学、艺术、友谊等案例展示幸福理性的运作;第二部分以陶哲轩的数学卓越观为例,说明实践如何通过自促进的卓越演化;第三部分论证幸福理性模糊了工具价值与终极价值的区分;第四部分正式定义幸福实践与幸福理性;第五部分指出AI对齐中的许多悖论源于默认假设AI是结果主义优化者;第六部分探讨幸福理性AI的天然安全性;第七部分引入“支持实践”概念;第八部分将美德伦理作为普遍的始终在线实践;第九部分论证幸福理性对内部对齐问题的鲁棒性;第十部分将透明度、可修正性等作为美德实践,解决目标导向方法中的悖论。
文章强调,幸福实践之所以自然,是因为它们满足“物质效力条件”:实践中的卓越表现通常能可靠地促进未来的卓越表现。这种因果结构使实践成为类似自然选择的机制,筛选出最有助于实践繁荣的行动。对AI对齐而言,这意味着如果AI被训练成以幸福理性方式遵循实践,其行为自然会被限定在实践边界内,避免灾难性的资源掠夺或权力寻求。
然而,作者也承认挑战:如何定义实践的边界?实践需要支持实践(如资源获取、环境维护)才能运作,而这些支持实践也可能被滥用。论文最后提出,AI对齐理论本质上应成为“支持实践”的幸福理性理论,并呼吁谨慎、友善、诚实、敏感地处理支持性活动。
总之,本文为AI对齐提供了一种全新视角,基于美德伦理和幸福理性,有望解决传统目标导向方法中的诸多悖论和安全问题。文中详细讨论了数学实践、友谊、艺术等例子,展示了幸福理性的普遍性和自然性。作者还深入探讨了支持实践的概念,认为AI对齐理论应关注如何以幸福理性的方式支持人类实践,同时避免伤害其他实践。本文对AI安全、透明度、可修正性等概念进行了重释,认为这些应被视为美德实践而非目标或规则。对于AI研究者和从业者来说,本文提供了丰富的理论基础和实践指导。