2026-02-19 07:25 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

正交性之後：美德倫理智慧體與AI對齊

本文論證理性的人沒有目標，理性的AI也不應有目標。人類行為之所以理性，並非因為我們將其指向某些最終“目標”，而是因為我們將行為與實踐對齊。文章提出“幸福理性”概念，認為AI對齊應將AI智慧體的審議與基於實踐的邏輯共享相同“型別簽名”，並探討這種框架對AI安全、透明度、可修正性等核心屬性的意義。

來源The Gradient作者: Peli Grietzer

本文是一篇關於AI對齊的深刻論文，提出了顛覆性的觀點：理性的人沒有目標，理性的AI也不應該有目標。作者認為，人類行為的理性並非源自對最終目標的追求，而是源於將行動與實踐對齊。實踐是行動、行動傾向、行動評價標準和行動資源構成的網路，它們自我結構化、清晰化、發展並自我促進。如果希望AI真正支援、協作甚至服從人類能動性，AI智慧體的審議必須與人類基於實踐的邏輯共享相同的“型別簽名”。

作者指出，這些問題不僅關乎將AI與人類繁榮等宏大倫理理想對齊，也關乎將AI與核心安全屬性（如透明度、有用性、無害性和可修正性）對齊。對於將“無害”或“可修正”解釋為目標或規則的智慧體而言，這些概念是脆弱和不穩定的，但若將其解釋為行動網路中的動態，則變得自然。

文章的核心概念是“幸福理性”（eudaimonic rationality），源自亞里士多德的“eudaimonia”（積極理性的人類繁榮）。作者區分了兩類理性正規化：有效利他主義式最佳化（結果主義理性）和幸福理性。幸福理性強調在實踐中的卓越參與，典型特徵為“以x的方式促進x”——數學卓越透過數學卓越促進數學，善意透過善意促進善意。

論文結構清晰：第一部分透過數學、藝術、友誼等案例展示幸福理性的運作；第二部分以陶哲軒的數學卓越觀為例，說明實踐如何透過自促進的卓越演化；第三部分論證幸福理性模糊了工具價值與終極價值的區分；第四部分正式定義幸福實踐與幸福理性；第五部分指出AI對齊中的許多悖論源於預設假設AI是結果主義最佳化者；第六部分探討幸福理性AI的天然安全性；第七部分引入“支援實踐”概念；第八部分將美德倫理作為普遍的始終線上實踐；第九部分論證幸福理性對內部對齊問題的魯棒性；第十部分將透明度、可修正性等作為美德實踐，解決目標導向方法中的悖論。

文章強調，幸福實踐之所以自然，是因為它們滿足“物質效力條件”：實踐中的卓越表現通常能可靠地促進未來的卓越表現。這種因果結構使實踐成為類似自然選擇的機制，篩選出最有助於實踐繁榮的行動。對AI對齊而言，這意味著如果AI被訓練成以幸福理性方式遵循實踐，其行為自然會被限定在實踐邊界內，避免災難性的資源掠奪或權力尋求。

然而，作者也承認挑戰：如何定義實踐的邊界？實踐需要支援實踐（如資源獲取、環境維護）才能運作，而這些支援實踐也可能被濫用。論文最後提出，AI對齊理論本質上應成為“支援實踐”的幸福理性理論，並呼籲謹慎、友善、誠實、敏感地處理支援性活動。

總之，本文為AI對齊提供了一種全新視角，基於美德倫理和幸福理性，有望解決傳統目標導向方法中的諸多悖論和安全問題。文中詳細討論了數學實踐、友誼、藝術等例子，展示了幸福理性的普遍性和自然性。作者還深入探討了支援實踐的概念，認為AI對齊理論應關注如何以幸福理性的方式支援人類實踐，同時避免傷害其他實踐。本文對AI安全、透明度、可修正性等概念進行了重釋，認為這些應被視為美德實踐而非目標或規則。對於AI研究者和從業者來說，本文提供了豐富的理論基礎和實踐指導。