2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

模型是否共享安全表示？跨模型引導實現安全視覺生成

研究人員提出一種跨模型安全引導框架，通過輕量級對齊，將源大語言模型的安全方向轉移到目標圖像/視頻生成器，無需目標端不安全數據。該方法在降低攻擊成功率的同時，保持了生成質量，並與原生方向效果相當。

來源arXiv Computer Vision作者: Tobia Poppi, Silvia Cappelletti, Sara Sarto, Florian Schiffers, Garin Kessler, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

近年來，生成式模型的快速發展使得安全控制成為核心挑戰。現有的安全方法大多針對特定模型設計，每次出現新的架構都需要重新訓練或定製干預，耗時且低效。本研究提出一個核心問題：安全是否可以被表示為一種可遷移的潛在方向，只需學習一次即可在異構生成器中重複使用？

為此，研究人員引入了首個跨模型安全引導框架。該框架首先從源大語言模型中，利用成對的安全/不安全提示估計出一個安全方向。然後，通過一個僅基於良性數據訓練的輕量級對齊模塊，將這個安全方向轉移到目標生成器，並在推理時應用。整個流程的關鍵在於，目標側從不訪問任何不安全數據，從而可以獨立檢驗安全是否通過共享的表示幾何結構實現遷移。

除了單一的全局方向外，研究還提出了多向量擴展，能夠捕捉類別特定的安全行為，實現更具選擇性的控制。例如，可以針對暴力、色情等不同不安全類別分別設置安全方向，避免過度過濾。作者在文本到圖像和文本到視頻生成任務中，對多種源-目標模型對進行了評估。

實驗結果顯示，轉移的安全方向在降低攻擊成功率（ASR）以及CLIP-Score/FID權衡方面，達到了與在目標模型上利用不安全數據原生學習的方向相當的性能，且無需目標側的不安全數據。這意味着安全改進並不會犧牲生成質量。此外，多向量擴展進一步提升了控制的精細度。

這些結果指向一種模塊化的安全視角：安全相關行為並非完全侷限於模型內部，而是可以通過跨模型持續存在的潛在方向進行控制。這為構建輕量級、可複用的安全機制開闢了新路徑，這些機制無需依賴目標側的不安全數據，有望廣泛應用於各種生成模型。