AI News HubLIVE
站内改写2 分钟阅读

文明所知的合规性,AI对齐却已遗忘

本文提出一个框架,将人类文明通过内化、社会压力、制度、市场和执法这五层实现的合规生态系统映射到AI对齐领域。当前AI对齐过度依赖制度和执法层面(如宪法AI和红队测试),而忽视了内化、社会压力和市场机制等更丰富的层面。文章呼吁采用持续对齐而非静态对齐的方法。

来源Hacker News AI作者: gagan2020

本文是2026年5月发表的一篇概念性框架文章。作者以印度为例指出,在资源严重受限的现代社会,法律与秩序的维护主要依赖执法机构,但印度却发展出一个多层次的生态系统,其中道德内化承担了执法无法负担的重任。这种模式并非刻意设计,而是自然涌现的解决方案:寺庙布道、家庭社会化、社区羞耻感以及潘查亚特制度,共同在广大分散的人口中维持了行为秩序,仅需极少的中枢机构。这为我们理解合规性在缺乏监控和惩罚时如何实际运作提供了活生生的实验室。

当这一文明视角映射到AI对齐领域时,揭示了一个惊人现象:该领域大量投资于执法和成文宪法的对应物(如输出过滤和宪法AI),却几乎完全忽视了人类社会数千年来发现的更丰富、更具韧性的合规层面。人类行为治理通过五个不同层面运作,每层弥补其他层的弱点:内化层(家庭社会化、教育系统、榜样人物和叙事故事)、社会压力层(同伴文化、羞耻和愧疚机制)、制度层(宗教指导、忏悔恢复、官僚流程和合同互惠)、市场层(经济激励和声誉市场)以及执行层(法律执行和恢复性司法)。最坚韧的社会并非执法最强,而是多层同时运作、相互加强。

在AI对齐中,内化层的家庭社会化相当于操作员微调和部署环境塑造,教育系统对应于互联网文本预训练,榜样人物对应于基于角色的对齐,叙事故事则对应于被动吸收小说。社会压力层中的羞耻机制对应于RLHF(依赖观察者),愧疚机制对应于宪法AI自我批评。制度层中的宗教指导对应于不确定性标记和人类延迟,忏悔对应于RLAIF自我批评,官僚流程对应于沙盒和功能限制。而合同互惠、经济激励和声誉市场在AI中完全缺失。执行层中的法律执行对应于过滤、红队测试和监管,但恢复性司法也付之阙如。

当前AI对齐在制度和执行层面集中投入,类似于只建设了圣经和警察的社会,却忽略了家庭社会化、社区反馈、经济激励和恢复性过程。这导致合规系统脆弱。一个重要区分是:RLHF类似于羞耻文化,行为由外部观察者认可塑造;宪法AI类似于内疚文化,行为由内化原则指导。尽管领域已向宪法AI迁移,但RLHF仍为基础,导致很大部分对齐架构依赖观察者,这正是越狱问题的结构性根源。

最终教训是,对齐应是持续而非偶发的。人类道德系统并非一次性训练后永久冻结;布道反复进行,节日周期重现,故事不断重述,社区持续强化规范。一次性训练并永久部署的模型,如同一个八岁接受道德教育后便无人管束的人。宪法原则最终会变成陈旧的经文:技术上有权威,却逐渐脱离现实。因此,我们需要构建分层、冗余、相互纠正、对观察与未观察行为敏感的对齐系统,借鉴人类数千年行为治理实验的成果。