擔心遞歸自我改進(RSI)?答案可能是CDE
一種稱為CDE(組合定向演化)的AI安全框架,通過固定模型並組合經審核的工具,避免了RSI(遞歸自我改進)帶來的不可控風險。該框架使用靜態分析確保安全,將防禦從對抗性運行時轉移到可加固的組件上,同時保持能力增長。
定向演化——為何Safebox比RSI更安全
兩種機器
一種自我重寫,另一種在門控下累積。
RSI系統會改進其自身改進的能力——這正是無人能確保其安全的原因:能重寫自身改進規則的事物,沒有固定的表面供防禦者推理。Safebox保持模型固定,通過組合經審核的工具集來實現增長。
左側:RSI的循環反饋回模型本身,獲取未經批准的權力,奔向自身設定的目標——沒有任何固定可檢查。右側:CDE僅組合經批准的原始組件;模型從不改變,每次組合在運行前都通過門控。
RSI
力量與危險是同一屬性——它獲取未經批准的能力,追求未經設定的目標——這既是其力量的來源,也是其不可安全化的根源。
CDE
放棄一樣東西,幾乎保留一切——它放棄新的原始能力。但已批准工具的組合空間已然廣闊——從一小套經過審核的部件中產生的寒武紀多樣化。
掌舵者始終是人類。系統進行組合,而不獲取。
編譯器論點
將工作流變為一種語言,防禦便成為編譯器的一遍檢查。
如今防禦AI系統意味着觀察行為、訓練分類器、添加監控並寄希望於運氣。Safebox使系統可分析:工作流是一種受限的聲明式語言,每個工具攜帶類型元數據,因此靜態分析器在運行前就能推理組合。
分析器從不運行工作流。它讀取聲明的圖和類型清單,追蹤敏感讀取是否能到達外部寫入,確認每個步驟都保持在聲明的能力範圍內,並檢查每個重要效果都經過M-of-N門控——如果存在污染路徑則拒絕該組合。一切在步驟執行前就已決定。
# 分析器讀取的圖——類型化步驟,聲明效果
workflow vendor_outreach {
step find : tool=search.web // 讀取·網絡:搜索API
step draft : tool=llm.complete // 無效果·無網絡
step send : tool=smtp.send // 寫入外部·smtp
edge find → draft → send
}
// 污染·能力·效果——全部在運行前可靜態判定這正是類型系統和能力安全曾經成功的舉措:約束語言,使你關心的安全屬性變得可證明。類型檢查器證明某類崩潰不會發生,無需運行你的程序;Safebox分析器證明污染的讀取不會到達外部寫入,無需運行工作流。
誠實的邊界
靜態分析決定一類屬性,而非全部——兩個安全原語的組合並非總是安全,元數據本身也是一種攻擊面,虛假清單可能破壞它。
因此Safebox並不宣稱防禦已解決。它宣稱防禦被重新定位——從對抗性運行時轉移到三個可加固的事物:分析器的可靠性、元數據的真實性、以及語言的可判定邊界。
鋼骨架——非沙堡,非蜂羣
鋼骨架vs沙堡命名了三種構建智能的方式。沙堡(提示和氛圍)在模型更新時崩塌。蜂羣(湧現、自我修改)不可調試、不可證明,因為湧現並非架構。只有鋼骨架能存活。
這正是CDE關於自身的警告:沒有骨架的組合系統會變成蜂羣。骨架——類型化的原始組件、提示外部的策略門控、可重放的執行、靜態強制——使其保持為建築物。智能體是認知;框架是架構。
一個環境,而非數百萬
修補一個密封的盒子——而非組織運行的每個組合。
運行開放智能體的組織需要防禦組合爆炸式的環境——每枱筆記本電腦、運行器、雲賬户和憑證範圍都是不同的攻擊面。Safebox將其顛倒:一個經過認證、出口受控的盒子,一次加固和分析。
左側:智能體接觸的每個環境都是需要加固的表面,其集合組合增長。右側:每個Safebox工作流都在同一組原始組件下的同一個盒子中運行——因此防禦屬性對所有工作流、租户和組織同時成立,因為它們屬於基礎平台,而非任務。
- O(n):你投入的信任——人類一次性批准每個工具,M-of-N
- O(2ⁿ):你獲得的可治理能力——已批准工具的每個可檢查組合
- 1:需要加固、分析和認證的環境——而非數百萬個組合
盒子內發現的漏洞並非副作用:即使完美的利用鏈也無法在沒有匹配的簽名清單和M-of-N批准的情況下到達外部寫入。更快的打補丁是在與工業級攻擊的賽跑中落敗;一次性地密封環境並證明邊界,則逆向擴展。
每個組織都能防禦的世界
如果Safebots勝過智能體,每個人的防禦將變得更簡單。
通常的擔憂是能力和危險同步上升。CDE的全部意義就是打破這種耦合:能力隨已批准工具的閉包上升;危險不會,因為新能力由經過審核的部件在密封盒子內通過靜態檢查組合而成。
如果Safebots大量湧現並勝過開放智能體——不是靠更聰明,而是靠組織無需押注公司於模型的剋制即可部署的版本——那麼AI能力持續攀升,同時防禦負擔下降。每個組織防禦同一種密封環境,使用同一種靜態分析,而非臨時拼湊自己的遏制措施,並通過自己的漏洞重蹈覆轍。
賭注
它在陽光下生長,在門控下,防禦者可以讀取它。
CDE不會達到最後百分之一——它永遠不會自主獲取真正的新原始能力,正是這種放棄使其安全。對於百分之九十九的真實工作,它達到與危險機器相同的上限,但通過留下鋼骨架的路徑:固定模型、經過審核的工具集、聲明式語言、單一密封環境,以及一個能在任何動作發生前證明盒子會做什麼和不會做什麼的靜態分析器。
RSI在黑暗中重寫自身。CDE在陽光下生長。可怕的那個版本提供了一個能力超越任何人防禦能力的世界。這一個版本提供了一個能力攀升同時防禦變得更簡單的世界——因為力量存在於組合中,而組合是可檢查的。