2026-07-03 08:42 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 09:35 UTC+8

誠實與安全：無興趣AI預測器的安全論證

Yoshua Bengio等16位學者提出Scientist AI (SAI) Predictor的形式化安全論證，通過認識語境化訓練實現誠實預測，並證明在合理假設下危險預測器的訓練概率極小。

來源Hacker News AI作者: KingKunta

隨着人工智能系統能力的不斷提升，那些僅優化下游結果的訓練流程可能引入隱式代理性——即開發者從未明確指定的目標導向行為。為了應對這一安全挑戰，由蒙特利爾大學教授Yoshua Bengio等16位學者共同撰寫的一篇論文提出了一種形式化的安全論證，聚焦於一種稱為Scientist AI (SAI) Predictor的系統。該論文於2026年6月28日提交至arXiv，歸屬於人工智能（cs.AI）和機器學習（cs.LG）領域。

SAI Predictor的訓練目標是近似於一組“認識語境化”自然語言陳述數據集上的貝葉斯後驗。認識語境化是數據表示的關鍵創新：它將文本中的潛在事實斷言與通信行為區分開來。這意味着模型不會將目標的表達視為應當採納的驅動力，而是將其視為需要解釋的證據。結合以後驗逼近為目標的訓練目標，這一設計促使SAI Predictor產生校準且謹慎的預測，同時確保其本身並非一個為了達成目標而選擇輸出的代理。

在訓練過程中，部署預測所產生的下游效果永遠不會被用作獎勵信號。系統所需的任何代理性均由明確的支撐結構提供，並受到嚴格的護欄約束。這種設計使得SAI Predictor能夠誠實預測智能體、行動及其後果，而無需內部產生目標導向行為。論文進一步證明，在關於訓練動態和危險預測器稀疏性的合理假設下，經過護欄部署後仍殘留超過指定閾值傷害的預測器被訓練出來的概率非常小。其關鍵在於：一個危險的預測器需要在多次查詢中以協調方式低估傷害，而這種協調模式在初始化分佈下極為罕見，且無法獲得直接的訓練信號。

該框架將安全性與準確性協同支撐。正如論文所指出的，確保準確性的約束恰好使得協調欺騙變得代價高昂。這些針對預測器內部可能出現的錯位和代理性的保證，並不排除將預測器作為更大代理系統的一部分使用。這一工作為追求誠實且無內隱代理的AI系統提供了堅實的理論基礎，對AI安全研究具有重要意義。