2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

拉動繮繩：通過表示引導實現視頻擴散模型的免訓練安全對齊

REINS 是一種無需訓練的方法，通過在推理時引導內部表示朝向安全生成，來對齊視頻擴散模型。它使用監督主成分分析找到一個單一方向，將安全與不安全的生成軌跡分開，並在中間Transformer層應用，計算開銷極低。在9個模型上進行評估，是視頻生成領域最廣泛的安全評估。

來源arXiv Computer Vision作者: Rohit Kundu, Arindam Dutta, Sarosij Bose, Athula Balachandran, Amit K. Roy-Chowdhury

近日，一篇題為“Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering”的論文提交至arXiv（論文ID：2606.17257），提出了一種名為REINS（REpresentation-space INference-time Safety steering）的免訓練安全對齊方法，專門針對視頻擴散模型。該研究由Rohit Kundu等五位作者共同完成，於2026年6月15日發佈。

隨着開源權重視頻擴散模型的發展，這些模型能夠生成逼真的不安全內容，從暴力場景到虛假信息，引發了廣泛的安全擔憂。現有的防禦手段面臨兩難：要麼需要進行昂貴的安全性微調，但這會降低模型的一般能力；要麼依賴外部過濾器，而這類過濾器很容易被對抗性提示繞過。REINS通過在推理時引導模型的內部表示朝向安全生成，從而避免這些缺陷，無需權重更新，也無需枚舉概念。

該研究的核心發現是，安全相關信息線性地編碼在視頻擴散Transformer的隱藏狀態激活中。通過監督主成分分析（Supervised PCA）在二元安全標籤上發現一個單一方向，足以區分安全與不安全的生成軌跡。在推理時，將該方向添加到中間Transformer層的隱藏狀態中，即可將生成從有害內容重定向到語義相關的安全替代內容。這一過程無需權重更新、無需枚舉概念，且計算開銷可以忽略不計。

通過機制分析，研究者進一步揭示了安全信息隨Transformer深度單調積累，但引導效果在中間層（約50%深度）達到峯值。這暴露了信息可用性與下游傳播能力之間的基本權衡：早期層的信息尚未充分積累，而深層雖然包含更多信息，但將其傳播到輸出位置的能力下降。因此，中間層成為最佳干預點。

REINS在9個視頻擴散模型、多種參數規模（1.3B至5B）以及文本到視頻和圖像到視頻生成任務上進行了評估。據研究者稱，這是視頻生成文獻中最廣泛的安全評估套件。實驗結果表明，REINS能夠有效降低不安全內容的生成，同時保持生成質量。這一方法為視頻擴散模型的安全部署提供了實用且高效的解決方案。