2026-02-19 07:25 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

正交性之后：美德伦理智能体与AI对齐

本文论证理性的人没有目标，理性的AI也不应有目标。人类行为之所以理性，并非因为我们将其指向某些最终“目标”，而是因为我们将行为与实践对齐。文章提出“幸福理性”概念，认为AI对齐应将AI智能体的审议与基于实践的逻辑共享相同“类型签名”，并探讨这种框架对AI安全、透明度、可修正性等核心属性的意义。

来源The Gradient作者: Peli Grietzer

本文是一篇关于AI对齐的深刻论文，提出了颠覆性的观点：理性的人没有目标，理性的AI也不应该有目标。作者认为，人类行为的理性并非源自对最终目标的追求，而是源于将行动与实践对齐。实践是行动、行动倾向、行动评价标准和行动资源构成的网络，它们自我结构化、清晰化、发展并自我促进。如果希望AI真正支持、协作甚至服从人类能动性，AI智能体的审议必须与人类基于实践的逻辑共享相同的“类型签名”。

作者指出，这些问题不仅关乎将AI与人类繁荣等宏大伦理理想对齐，也关乎将AI与核心安全属性（如透明度、有用性、无害性和可修正性）对齐。对于将“无害”或“可修正”解释为目标或规则的智能体而言，这些概念是脆弱和不稳定的，但若将其解释为行动网络中的动态，则变得自然。

文章的核心概念是“幸福理性”（eudaimonic rationality），源自亚里士多德的“eudaimonia”（积极理性的人类繁荣）。作者区分了两类理性范式：有效利他主义式优化（结果主义理性）和幸福理性。幸福理性强调在实践中的卓越参与，典型特征为“以x的方式促进x”——数学卓越通过数学卓越促进数学，善意通过善意促进善意。

论文结构清晰：第一部分通过数学、艺术、友谊等案例展示幸福理性的运作；第二部分以陶哲轩的数学卓越观为例，说明实践如何通过自促进的卓越演化；第三部分论证幸福理性模糊了工具价值与终极价值的区分；第四部分正式定义幸福实践与幸福理性；第五部分指出AI对齐中的许多悖论源于默认假设AI是结果主义优化者；第六部分探讨幸福理性AI的天然安全性；第七部分引入“支持实践”概念；第八部分将美德伦理作为普遍的始终在线实践；第九部分论证幸福理性对内部对齐问题的鲁棒性；第十部分将透明度、可修正性等作为美德实践，解决目标导向方法中的悖论。

文章强调，幸福实践之所以自然，是因为它们满足“物质效力条件”：实践中的卓越表现通常能可靠地促进未来的卓越表现。这种因果结构使实践成为类似自然选择的机制，筛选出最有助于实践繁荣的行动。对AI对齐而言，这意味着如果AI被训练成以幸福理性方式遵循实践，其行为自然会被限定在实践边界内，避免灾难性的资源掠夺或权力寻求。

然而，作者也承认挑战：如何定义实践的边界？实践需要支持实践（如资源获取、环境维护）才能运作，而这些支持实践也可能被滥用。论文最后提出，AI对齐理论本质上应成为“支持实践”的幸福理性理论，并呼吁谨慎、友善、诚实、敏感地处理支持性活动。

总之，本文为AI对齐提供了一种全新视角，基于美德伦理和幸福理性，有望解决传统目标导向方法中的诸多悖论和安全问题。文中详细讨论了数学实践、友谊、艺术等例子，展示了幸福理性的普遍性和自然性。作者还深入探讨了支持实践的概念，认为AI对齐理论应关注如何以幸福理性的方式支持人类实践，同时避免伤害其他实践。本文对AI安全、透明度、可修正性等概念进行了重释，认为这些应被视为美德实践而非目标或规则。对于AI研究者和从业者来说，本文提供了丰富的理论基础和实践指导。