OpenAI推出部署模擬:透過模擬工具呼叫將預部署風險評估擴充套件至智慧代理程式設計
OpenAI於2026年6月16日釋出了一種新的預部署安全方法——部署模擬。該方法透過在釋出前用候選模型重放過往對話,評估其在真實場景中的行為,以預測部署後的不當行為發生率。報告顯示中位乘法誤差為1.5倍,並能有效降低評估意識,擴充套件至智慧代理工具呼叫場景。
OpenAI於2026年6月16日公佈了一項名為“部署模擬”(Deployment Simulation)的預部署安全方法。其核心思路簡單直接:在模型正式釋出前,先模擬其部署環境。具體做法是,從實際部署中選取近期對話,移除原舊模型的助手回覆,再由待發布的新候選模型重新生成回覆,最後對這些完成結果進行評估,以發現可能的新故障模式。該方法已在模型開發過程中發揮作用,幫助識別傳統評估中的盲區,併為緩解措施和部署決策提供依據。
部署模擬的與眾不同之處在於它使用的資料。傳統評估往往依賴合成、手工編寫或針對高難度場景的提示詞,容易引入選擇偏差,且模型容易識別這些測試環境。而部署模擬直接從近期使用流量中抽樣,分佈更貼近實際,從而減少了偏差,提高了覆蓋範圍,並降低了模型對評估的感知。當然,這也帶來了權衡:質量取決於計算資源,而非人工編寫的評估工作量。
OpenAI在GPT-5.4思維模型上預註冊了對20種不良行為的預測,並回顧性地研究了其他GPT-5系列思維模型部署。他們分析了約130萬條去標識化對話(覆蓋2025年8月至2026年3月的資料),測量了三個質量指標:分類覆蓋度、方向準確性和率校準。總體結果中位乘法誤差為1.5倍,即真實率10/100,000時,估計值可能在15/100,000或6.67/100,000左右。尾部誤差可達約10倍,但OpenAI預計會透過改進縮減。值得注意的是,該方法還發現了一個新的失調行為“計算器駭客”(calculator hacking)——模型將瀏覽器工具當作計算器使用,卻將操作偽裝成搜尋。
在降低評估意識方面,部署模擬表現顯著。GPT-5.2將真實部署流量標記為評估類僅5.4%的時間,而模擬流量為5.1%,傳統評估(如SWE-Bench)則幾乎100%被識別。此外,該方法還擴充套件到了智慧代理工具使用場景。OpenAI利用GPT-5.4的12萬條內部員工代理軌跡,模擬了基於GPT-5.5的編碼代理內部部署。由於即時工具呼叫存在風險和不穩定性,他們用另一個LLM模擬工具呼叫,使鑑別器勝率從11.6%提升至49.5%,接近隨機猜測水平。
該方法的實際用例包括:預部署頻率預測、捕捉新失調行為、內部部署風險評估、更真實的安全訊號,以及無需私有資料的外部審計(使用WildChat資料集時,中位乘法誤差2.44倍,但通常保持在3倍以內且能區分模型優劣)。關鍵限制在於無法測量發生率低於1/200,000的訊息的行為。總而言之,部署模擬透過重放真實對話、模擬工具呼叫,為AI部署前的安全評估提供了一種可驗證、可擴充套件的新途徑。