AI News HubLIVE
站内改写3 分鐘閱讀

擔心遞迴自我改進(RSI)?答案可能是CDE

一種稱為CDE(組合定向演化)的AI安全框架,透過固定模型並組合經稽核的工具,避免了RSI(遞迴自我改進)帶來的不可控風險。該框架使用靜態分析確保安全,將防禦從對抗性執行時轉移到可加固的元件上,同時保持能力增長。

來源Hacker News AI作者: EGreg

定向演化——為何Safebox比RSI更安全

兩種機器

一種自我重寫,另一種在門控下累積。

RSI系統會改進其自身改進的能力——這正是無人能確保其安全的原因:能重寫自身改進規則的事物,沒有固定的表面供防禦者推理。Safebox保持模型固定,透過組合經稽核的工具集來實現增長。

左側:RSI的迴圈反饋回模型本身,獲取未經批准的權力,奔向自身設定的目標——沒有任何固定可檢查。右側:CDE僅組合經批准的原始元件;模型從不改變,每次組合在執行前都透過門控。

RSI

力量與危險是同一屬性——它獲取未經批准的能力,追求未經設定的目標——這既是其力量的來源,也是其不可安全化的根源。

CDE

放棄一樣東西,幾乎保留一切——它放棄新的原始能力。但已批准工具的組合空間已然廣闊——從一小套經過稽核的部件中產生的寒武紀多樣化。

掌舵者始終是人類。系統進行組合,而不獲取。

編譯器論點

將工作流變為一種語言,防禦便成為編譯器的一遍檢查。

如今防禦AI系統意味著觀察行為、訓練分類器、新增監控並寄希望於運氣。Safebox使系統可分析:工作流是一種受限的宣告式語言,每個工具攜帶型別後設資料,因此靜態分析器在執行前就能推理組合。

分析器從不執行工作流。它讀取宣告的圖和型別清單,追蹤敏感讀取是否能到達外部寫入,確認每個步驟都保持在宣告的能力範圍內,並檢查每個重要效果都經過M-of-N門控——如果存在汙染路徑則拒絕該組合。一切在步驟執行前就已決定。

# 分析器讀取的圖——型別化步驟,宣告效果
workflow vendor_outreach {
  step find : tool=search.web // 讀取·網路:搜尋API
  step draft : tool=llm.complete // 無效果·無網路
  step send : tool=smtp.send // 寫入外部·smtp
  edge find → draft → send
}
// 汙染·能力·效果——全部在執行前可靜態判定

這正是型別系統和能力安全曾經成功的舉措:約束語言,使你關心的安全屬性變得可證明。型別檢查器證明某類崩潰不會發生,無需執行你的程式;Safebox分析器證明汙染的讀取不會到達外部寫入,無需執行工作流。

誠實的邊界

靜態分析決定一類屬性,而非全部——兩個安全原語的組合並非總是安全,後設資料本身也是一種攻擊面,虛假清單可能破壞它。

因此Safebox並不宣稱防禦已解決。它宣稱防禦被重新定位——從對抗性執行時轉移到三個可加固的事物:分析器的可靠性、後設資料的真實性、以及語言的可判定邊界。

鋼骨架——非沙堡,非蜂群

鋼骨架vs沙堡命名了三種構建智慧的方式。沙堡(提示和氛圍)在模型更新時崩塌。蜂群(湧現、自我修改)不可除錯、不可證明,因為湧現並非架構。只有鋼骨架能存活。

這正是CDE關於自身的警告:沒有骨架的組合系統會變成蜂群。骨架——型別化的原始元件、提示外部的策略門控、可重放的執行、靜態強制——使其保持為建築物。智慧體是認知;框架是架構。

一個環境,而非數百萬

修補一個密封的盒子——而非組織執行的每個組合。

執行開放智慧體的組織需要防禦組合爆炸式的環境——每檯筆記型電腦、執行器、雲賬戶和憑證範圍都是不同的攻擊面。Safebox將其顛倒:一個經過認證、出口受控的盒子,一次加固和分析。

左側:智慧體接觸的每個環境都是需要加固的表面,其集合組合增長。右側:每個Safebox工作流都在同一組原始元件下的同一個盒子中執行——因此防禦屬性對所有工作流、租戶和組織同時成立,因為它們屬於基礎平臺,而非任務。

  • O(n):你投入的信任——人類一次性批准每個工具,M-of-N
  • O(2ⁿ):你獲得的可治理能力——已批准工具的每個可檢查組合
  • 1:需要加固、分析和認證的環境——而非數百萬個組合

盒子內發現的漏洞並非副作用:即使完美的利用鏈也無法在沒有匹配的簽名清單和M-of-N批准的情況下到達外部寫入。更快的打補丁是在與工業級攻擊的賽跑中落敗;一次性地密封環境並證明邊界,則逆向擴充套件。

每個組織都能防禦的世界

如果Safebots勝過智慧體,每個人的防禦將變得更簡單。

通常的擔憂是能力和危險同步上升。CDE的全部意義就是打破這種耦合:能力隨已批准工具的閉包上升;危險不會,因為新能力由經過稽核的部件在密封盒子內透過靜態檢查組合而成。

如果Safebots大量湧現並勝過開放智慧體——不是靠更聰明,而是靠組織無需押注公司於模型的剋制即可部署的版本——那麼AI能力持續攀升,同時防禦負擔下降。每個組織防禦同一種密封環境,使用同一種靜態分析,而非臨時拼湊自己的遏制措施,並透過自己的漏洞重蹈覆轍。

賭注

它在陽光下生長,在門控下,防禦者可以讀取它。

CDE不會達到最後百分之一——它永遠不會自主獲取真正的新原始能力,正是這種放棄使其安全。對於百分之九十九的真實工作,它達到與危險機器相同的上限,但透過留下鋼骨架的路徑:固定模型、經過稽核的工具集、宣告式語言、單一密封環境,以及一個能在任何動作發生前證明盒子會做什麼和不會做什麼的靜態分析器。

RSI在黑暗中重寫自身。CDE在陽光下生長。可怕的那個版本提供了一個能力超越任何人防禦能力的世界。這一個版本提供了一個能力攀升同時防禦變得更簡單的世界——因為力量存在於組合中,而組合是可檢查的。