誠實與安全:無興趣AI預測器的安全論證
Yoshua Bengio等16位學者提出Scientist AI (SAI) Predictor的形式化安全論證,透過認識語境化訓練實現誠實預測,並證明在合理假設下危險預測器的訓練機率極小。
隨著人工智慧系統能力的不斷提升,那些僅最佳化下游結果的訓練流程可能引入隱式代理性——即開發者從未明確指定的目標導向行為。為了應對這一安全挑戰,由蒙特利爾大學教授Yoshua Bengio等16位學者共同撰寫的一篇論文提出了一種形式化的安全論證,聚焦於一種稱為Scientist AI (SAI) Predictor的系統。該論文於2026年6月28日提交至arXiv,歸屬於人工智慧(cs.AI)和機器學習(cs.LG)領域。
SAI Predictor的訓練目標是近似於一組“認識語境化”自然語言陳述資料集上的貝葉斯後驗。認識語境化是資料表示的關鍵創新:它將文本中的潛在事實斷言與通訊行為區分開來。這意味著模型不會將目標的表達視為應當採納的驅動力,而是將其視為需要解釋的證據。結合以後驗逼近為目標的訓練目標,這一設計促使SAI Predictor產生校準且謹慎的預測,同時確保其本身並非一個為了達成目標而選擇輸出的代理。
在訓練過程中,部署預測所產生的下游效果永遠不會被用作獎勵訊號。系統所需的任何代理性均由明確的支撐結構提供,並受到嚴格的護欄約束。這種設計使得SAI Predictor能夠誠實預測智慧體、行動及其後果,而無需內部產生目標導向行為。論文進一步證明,在關於訓練動態和危險預測器稀疏性的合理假設下,經過護欄部署後仍殘留超過指定閾值傷害的預測器被訓練出來的機率非常小。其關鍵在於:一個危險的預測器需要在多次查詢中以協調方式低估傷害,而這種協調模式在初始化分佈下極為罕見,且無法獲得直接的訓練訊號。
該框架將安全性與準確性協同支撐。正如論文所指出的,確保準確性的約束恰好使得協調欺騙變得代價高昂。這些針對預測器內部可能出現的錯位和代理性的保證,並不排除將預測器作為更大代理系統的一部分使用。這一工作為追求誠實且無內隱代理的AI系統提供了堅實的理論基礎,對AI安全研究具有重要意義。