模型是否共享安全表示?跨模型引導實現安全視覺生成
研究人員提出一種跨模型安全引導框架,通過輕量級對齊,將源大語言模型的安全方向轉移到目標圖像/視頻生成器,無需目標端不安全數據。該方法在降低攻擊成功率的同時,保持了生成質量,並與原生方向效果相當。
來源arXiv Computer Vision作者: Tobia Poppi, Silvia Cappelletti, Sara Sarto, Florian Schiffers, Garin Kessler, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
近年來,生成式模型的快速發展使得安全控制成為核心挑戰。現有的安全方法大多針對特定模型設計,每次出現新的架構都需要重新訓練或定製干預,耗時且低效。本研究提出一個核心問題:安全是否可以被表示為一種可遷移的潛在方向,只需學習一次即可在異構生成器中重複使用?
為此,研究人員引入了首個跨模型安全引導框架。該框架首先從源大語言模型中,利用成對的安全/不安全提示估計出一個安全方向。然後,通過一個僅基於良性數據訓練的輕量級對齊模塊,將這個安全方向轉移到目標生成器,並在推理時應用。整個流程的關鍵在於,目標側從不訪問任何不安全數據,從而可以獨立檢驗安全是否通過共享的表示幾何結構實現遷移。
除了單一的全局方向外,研究還提出了多向量擴展,能夠捕捉類別特定的安全行為,實現更具選擇性的控制。例如,可以針對暴力、色情等不同不安全類別分別設置安全方向,避免過度過濾。作者在文本到圖像和文本到視頻生成任務中,對多種源-目標模型對進行了評估。
實驗結果顯示,轉移的安全方向在降低攻擊成功率(ASR)以及CLIP-Score/FID權衡方面,達到了與在目標模型上利用不安全數據原生學習的方向相當的性能,且無需目標側的不安全數據。這意味着安全改進並不會犧牲生成質量。此外,多向量擴展進一步提升了控制的精細度。
這些結果指向一種模塊化的安全視角:安全相關行為並非完全侷限於模型內部,而是可以通過跨模型持續存在的潛在方向進行控制。這為構建輕量級、可複用的安全機制開闢了新路徑,這些機制無需依賴目標側的不安全數據,有望廣泛應用於各種生成模型。