正交性之後:美德倫理智慧體與AI對齊
本文論證理性的人沒有目標,理性的AI也不應有目標。人類行為之所以理性,並非因為我們將其指向某些最終“目標”,而是因為我們將行為與實踐對齊。文章提出“幸福理性”概念,認為AI對齊應將AI智慧體的審議與基於實踐的邏輯共享相同“型別簽名”,並探討這種框架對AI安全、透明度、可修正性等核心屬性的意義。
本文是一篇關於AI對齊的深刻論文,提出了顛覆性的觀點:理性的人沒有目標,理性的AI也不應該有目標。作者認為,人類行為的理性並非源自對最終目標的追求,而是源於將行動與實踐對齊。實踐是行動、行動傾向、行動評價標準和行動資源構成的網路,它們自我結構化、清晰化、發展並自我促進。如果希望AI真正支援、協作甚至服從人類能動性,AI智慧體的審議必須與人類基於實踐的邏輯共享相同的“型別簽名”。
作者指出,這些問題不僅關乎將AI與人類繁榮等宏大倫理理想對齊,也關乎將AI與核心安全屬性(如透明度、有用性、無害性和可修正性)對齊。對於將“無害”或“可修正”解釋為目標或規則的智慧體而言,這些概念是脆弱和不穩定的,但若將其解釋為行動網路中的動態,則變得自然。
文章的核心概念是“幸福理性”(eudaimonic rationality),源自亞里士多德的“eudaimonia”(積極理性的人類繁榮)。作者區分了兩類理性正規化:有效利他主義式最佳化(結果主義理性)和幸福理性。幸福理性強調在實踐中的卓越參與,典型特徵為“以x的方式促進x”——數學卓越透過數學卓越促進數學,善意透過善意促進善意。
論文結構清晰:第一部分透過數學、藝術、友誼等案例展示幸福理性的運作;第二部分以陶哲軒的數學卓越觀為例,說明實踐如何透過自促進的卓越演化;第三部分論證幸福理性模糊了工具價值與終極價值的區分;第四部分正式定義幸福實踐與幸福理性;第五部分指出AI對齊中的許多悖論源於預設假設AI是結果主義最佳化者;第六部分探討幸福理性AI的天然安全性;第七部分引入“支援實踐”概念;第八部分將美德倫理作為普遍的始終線上實踐;第九部分論證幸福理性對內部對齊問題的魯棒性;第十部分將透明度、可修正性等作為美德實踐,解決目標導向方法中的悖論。
文章強調,幸福實踐之所以自然,是因為它們滿足“物質效力條件”:實踐中的卓越表現通常能可靠地促進未來的卓越表現。這種因果結構使實踐成為類似自然選擇的機制,篩選出最有助於實踐繁榮的行動。對AI對齊而言,這意味著如果AI被訓練成以幸福理性方式遵循實踐,其行為自然會被限定在實踐邊界內,避免災難性的資源掠奪或權力尋求。
然而,作者也承認挑戰:如何定義實踐的邊界?實踐需要支援實踐(如資源獲取、環境維護)才能運作,而這些支援實踐也可能被濫用。論文最後提出,AI對齊理論本質上應成為“支援實踐”的幸福理性理論,並呼籲謹慎、友善、誠實、敏感地處理支援性活動。
總之,本文為AI對齊提供了一種全新視角,基於美德倫理和幸福理性,有望解決傳統目標導向方法中的諸多悖論和安全問題。文中詳細討論了數學實踐、友誼、藝術等例子,展示了幸福理性的普遍性和自然性。作者還深入探討了支援實踐的概念,認為AI對齊理論應關注如何以幸福理性的方式支援人類實踐,同時避免傷害其他實踐。本文對AI安全、透明度、可修正性等概念進行了重釋,認為這些應被視為美德實踐而非目標或規則。對於AI研究者和從業者來說,本文提供了豐富的理論基礎和實踐指導。