AI News HubLIVE
站内改写2 分鐘閱讀

文明所知的合規性,AI對齊卻已遺忘

本文提出一個框架,將人類文明通過內化、社會壓力、制度、市場和執法這五層實現的合規生態系統映射到AI對齊領域。當前AI對齊過度依賴制度和執法層面(如憲法AI和紅隊測試),而忽視了內化、社會壓力和市場機制等更豐富的層面。文章呼籲採用持續對齊而非靜態對齊的方法。

來源Hacker News AI作者: gagan2020

本文是2026年5月發表的一篇概念性框架文章。作者以印度為例指出,在資源嚴重受限的現代社會,法律與秩序的維護主要依賴執法機構,但印度卻發展出一個多層次的生態系統,其中道德內化承擔了執法無法負擔的重任。這種模式並非刻意設計,而是自然湧現的解決方案:寺廟佈道、家庭社會化、社區羞恥感以及潘查亞特製度,共同在廣大分散的人口中維持了行為秩序,僅需極少的中樞機構。這為我們理解合規性在缺乏監控和懲罰時如何實際運作提供了活生生的實驗室。

當這一文明視角映射到AI對齊領域時,揭示了一個驚人現象:該領域大量投資於執法和成文憲法的對應物(如輸出過濾和憲法AI),卻幾乎完全忽視了人類社會數千年來發現的更豐富、更具韌性的合規層面。人類行為治理通過五個不同層面運作,每層彌補其他層的弱點:內化層(家庭社會化、教育系統、榜樣人物和敍事故事)、社會壓力層(同伴文化、羞恥和愧疚機制)、制度層(宗教指導、懺悔恢復、官僚流程和合同互惠)、市場層(經濟激勵和聲譽市場)以及執行層(法律執行和恢復性司法)。最堅韌的社會並非執法最強,而是多層同時運作、相互加強。

在AI對齊中,內化層的家庭社會化相當於操作員微調和部署環境塑造,教育系統對應於互聯網文本預訓練,榜樣人物對應於基於角色的對齊,敍事故事則對應於被動吸收小説。社會壓力層中的羞恥機制對應於RLHF(依賴觀察者),愧疚機制對應於憲法AI自我批評。制度層中的宗教指導對應於不確定性標記和人類延遲,懺悔對應於RLAIF自我批評,官僚流程對應於沙盒和功能限制。而合同互惠、經濟激勵和聲譽市場在AI中完全缺失。執行層中的法律執行對應於過濾、紅隊測試和監管,但恢復性司法也付之闕如。

當前AI對齊在制度和執行層面集中投入,類似於只建設了聖經和警察的社會,卻忽略了家庭社會化、社區反饋、經濟激勵和恢復性過程。這導致合規系統脆弱。一個重要區分是:RLHF類似於羞恥文化,行為由外部觀察者認可塑造;憲法AI類似於內疚文化,行為由內化原則指導。儘管領域已向憲法AI遷移,但RLHF仍為基礎,導致很大部分對齊架構依賴觀察者,這正是越獄問題的結構性根源。

最終教訓是,對齊應是持續而非偶發的。人類道德系統並非一次性訓練後永久凍結;佈道反覆進行,節日週期重現,故事不斷重述,社區持續強化規範。一次性訓練並永久部署的模型,如同一個八歲接受道德教育後便無人管束的人。憲法原則最終會變成陳舊的經文:技術上有權威,卻逐漸脱離現實。因此,我們需要構建分層、冗餘、相互糾正、對觀察與未觀察行為敏感的對齊系統,借鑑人類數千年行為治理實驗的成果。