2026-06-17站内改写1 分钟阅读更新: 2026-06-17

拉动缰绳：通过表示引导实现视频扩散模型的免训练安全对齐

REINS 是一种无需训练的方法，通过在推理时引导内部表示朝向安全生成，来对齐视频扩散模型。它使用监督主成分分析找到一个单一方向，将安全与不安全的生成轨迹分开，并在中间Transformer层应用，计算开销极低。在9个模型上进行评估，是视频生成领域最广泛的安全评估。

来源arXiv Computer Vision作者: Rohit Kundu, Arindam Dutta, Sarosij Bose, Athula Balachandran, Amit K. Roy-Chowdhury

近日，一篇题为“Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering”的论文提交至arXiv（论文ID：2606.17257），提出了一种名为REINS（REpresentation-space INference-time Safety steering）的免训练安全对齐方法，专门针对视频扩散模型。该研究由Rohit Kundu等五位作者共同完成，于2026年6月15日发布。

随着开源权重视频扩散模型的发展，这些模型能够生成逼真的不安全内容，从暴力场景到虚假信息，引发了广泛的安全担忧。现有的防御手段面临两难：要么需要进行昂贵的安全性微调，但这会降低模型的一般能力；要么依赖外部过滤器，而这类过滤器很容易被对抗性提示绕过。REINS通过在推理时引导模型的内部表示朝向安全生成，从而避免这些缺陷，无需权重更新，也无需枚举概念。

该研究的核心发现是，安全相关信息线性地编码在视频扩散Transformer的隐藏状态激活中。通过监督主成分分析（Supervised PCA）在二元安全标签上发现一个单一方向，足以区分安全与不安全的生成轨迹。在推理时，将该方向添加到中间Transformer层的隐藏状态中，即可将生成从有害内容重定向到语义相关的安全替代内容。这一过程无需权重更新、无需枚举概念，且计算开销可以忽略不计。

通过机制分析，研究者进一步揭示了安全信息随Transformer深度单调积累，但引导效果在中间层（约50%深度）达到峰值。这暴露了信息可用性与下游传播能力之间的基本权衡：早期层的信息尚未充分积累，而深层虽然包含更多信息，但将其传播到输出位置的能力下降。因此，中间层成为最佳干预点。

REINS在9个视频扩散模型、多种参数规模（1.3B至5B）以及文本到视频和图像到视频生成任务上进行了评估。据研究者称，这是视频生成文献中最广泛的安全评估套件。实验结果表明，REINS能够有效降低不安全内容的生成，同时保持生成质量。这一方法为视频扩散模型的安全部署提供了实用且高效的解决方案。