2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

模型是否共享安全表示？跨模型引导实现安全视觉生成

研究人员提出一种跨模型安全引导框架，通过轻量级对齐，将源大语言模型的安全方向转移到目标图像/视频生成器，无需目标端不安全数据。该方法在降低攻击成功率的同时，保持了生成质量，并与原生方向效果相当。

来源arXiv Computer Vision作者: Tobia Poppi, Silvia Cappelletti, Sara Sarto, Florian Schiffers, Garin Kessler, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

近年来，生成式模型的快速发展使得安全控制成为核心挑战。现有的安全方法大多针对特定模型设计，每次出现新的架构都需要重新训练或定制干预，耗时且低效。本研究提出一个核心问题：安全是否可以被表示为一种可迁移的潜在方向，只需学习一次即可在异构生成器中重复使用？

为此，研究人员引入了首个跨模型安全引导框架。该框架首先从源大语言模型中，利用成对的安全/不安全提示估计出一个安全方向。然后，通过一个仅基于良性数据训练的轻量级对齐模块，将这个安全方向转移到目标生成器，并在推理时应用。整个流程的关键在于，目标侧从不访问任何不安全数据，从而可以独立检验安全是否通过共享的表示几何结构实现迁移。

除了单一的全局方向外，研究还提出了多向量扩展，能够捕捉类别特定的安全行为，实现更具选择性的控制。例如，可以针对暴力、色情等不同不安全类别分别设置安全方向，避免过度过滤。作者在文本到图像和文本到视频生成任务中，对多种源-目标模型对进行了评估。

实验结果显示，转移的安全方向在降低攻击成功率（ASR）以及CLIP-Score/FID权衡方面，达到了与在目标模型上利用不安全数据原生学习的方向相当的性能，且无需目标侧的不安全数据。这意味着安全改进并不会牺牲生成质量。此外，多向量扩展进一步提升了控制的精细度。

这些结果指向一种模块化的安全视角：安全相关行为并非完全局限于模型内部，而是可以通过跨模型持续存在的潜在方向进行控制。这为构建轻量级、可复用的安全机制开辟了新路径，这些机制无需依赖目标侧的不安全数据，有望广泛应用于各种生成模型。