AI News HubLIVE
站内改写1 分钟阅读

拉动缰绳:通过表示引导实现视频扩散模型的免训练安全对齐

REINS 是一种无需训练的方法,通过在推理时引导内部表示朝向安全生成,来对齐视频扩散模型。它使用监督主成分分析找到一个单一方向,将安全与不安全的生成轨迹分开,并在中间Transformer层应用,计算开销极低。在9个模型上进行评估,是视频生成领域最广泛的安全评估。

来源arXiv Computer Vision作者: Rohit Kundu, Arindam Dutta, Sarosij Bose, Athula Balachandran, Amit K. Roy-Chowdhury

近日,一篇题为“Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering”的论文提交至arXiv(论文ID:2606.17257),提出了一种名为REINS(REpresentation-space INference-time Safety steering)的免训练安全对齐方法,专门针对视频扩散模型。该研究由Rohit Kundu等五位作者共同完成,于2026年6月15日发布。

随着开源权重视频扩散模型的发展,这些模型能够生成逼真的不安全内容,从暴力场景到虚假信息,引发了广泛的安全担忧。现有的防御手段面临两难:要么需要进行昂贵的安全性微调,但这会降低模型的一般能力;要么依赖外部过滤器,而这类过滤器很容易被对抗性提示绕过。REINS通过在推理时引导模型的内部表示朝向安全生成,从而避免这些缺陷,无需权重更新,也无需枚举概念。

该研究的核心发现是,安全相关信息线性地编码在视频扩散Transformer的隐藏状态激活中。通过监督主成分分析(Supervised PCA)在二元安全标签上发现一个单一方向,足以区分安全与不安全的生成轨迹。在推理时,将该方向添加到中间Transformer层的隐藏状态中,即可将生成从有害内容重定向到语义相关的安全替代内容。这一过程无需权重更新、无需枚举概念,且计算开销可以忽略不计。

通过机制分析,研究者进一步揭示了安全信息随Transformer深度单调积累,但引导效果在中间层(约50%深度)达到峰值。这暴露了信息可用性与下游传播能力之间的基本权衡:早期层的信息尚未充分积累,而深层虽然包含更多信息,但将其传播到输出位置的能力下降。因此,中间层成为最佳干预点。

REINS在9个视频扩散模型、多种参数规模(1.3B至5B)以及文本到视频和图像到视频生成任务上进行了评估。据研究者称,这是视频生成文献中最广泛的安全评估套件。实验结果表明,REINS能够有效降低不安全内容的生成,同时保持生成质量。这一方法为视频扩散模型的安全部署提供了实用且高效的解决方案。

拉动缰绳:通过表示引导实现视频扩散模型的免训练安全对齐 | AI News Hub