AI News HubLIVE
站内改写1 分钟阅读

模型是否共享安全表示?跨模型引导实现安全视觉生成

研究人员提出一种跨模型安全引导框架,通过轻量级对齐,将源大语言模型的安全方向转移到目标图像/视频生成器,无需目标端不安全数据。该方法在降低攻击成功率的同时,保持了生成质量,并与原生方向效果相当。

来源arXiv Computer Vision作者: Tobia Poppi, Silvia Cappelletti, Sara Sarto, Florian Schiffers, Garin Kessler, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

近年来,生成式模型的快速发展使得安全控制成为核心挑战。现有的安全方法大多针对特定模型设计,每次出现新的架构都需要重新训练或定制干预,耗时且低效。本研究提出一个核心问题:安全是否可以被表示为一种可迁移的潜在方向,只需学习一次即可在异构生成器中重复使用?

为此,研究人员引入了首个跨模型安全引导框架。该框架首先从源大语言模型中,利用成对的安全/不安全提示估计出一个安全方向。然后,通过一个仅基于良性数据训练的轻量级对齐模块,将这个安全方向转移到目标生成器,并在推理时应用。整个流程的关键在于,目标侧从不访问任何不安全数据,从而可以独立检验安全是否通过共享的表示几何结构实现迁移。

除了单一的全局方向外,研究还提出了多向量扩展,能够捕捉类别特定的安全行为,实现更具选择性的控制。例如,可以针对暴力、色情等不同不安全类别分别设置安全方向,避免过度过滤。作者在文本到图像和文本到视频生成任务中,对多种源-目标模型对进行了评估。

实验结果显示,转移的安全方向在降低攻击成功率(ASR)以及CLIP-Score/FID权衡方面,达到了与在目标模型上利用不安全数据原生学习的方向相当的性能,且无需目标侧的不安全数据。这意味着安全改进并不会牺牲生成质量。此外,多向量扩展进一步提升了控制的精细度。

这些结果指向一种模块化的安全视角:安全相关行为并非完全局限于模型内部,而是可以通过跨模型持续存在的潜在方向进行控制。这为构建轻量级、可复用的安全机制开辟了新路径,这些机制无需依赖目标侧的不安全数据,有望广泛应用于各种生成模型。