拉動繮繩:通過表示引導實現視頻擴散模型的免訓練安全對齊
REINS 是一種無需訓練的方法,通過在推理時引導內部表示朝向安全生成,來對齊視頻擴散模型。它使用監督主成分分析找到一個單一方向,將安全與不安全的生成軌跡分開,並在中間Transformer層應用,計算開銷極低。在9個模型上進行評估,是視頻生成領域最廣泛的安全評估。
近日,一篇題為“Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering”的論文提交至arXiv(論文ID:2606.17257),提出了一種名為REINS(REpresentation-space INference-time Safety steering)的免訓練安全對齊方法,專門針對視頻擴散模型。該研究由Rohit Kundu等五位作者共同完成,於2026年6月15日發佈。
隨着開源權重視頻擴散模型的發展,這些模型能夠生成逼真的不安全內容,從暴力場景到虛假信息,引發了廣泛的安全擔憂。現有的防禦手段面臨兩難:要麼需要進行昂貴的安全性微調,但這會降低模型的一般能力;要麼依賴外部過濾器,而這類過濾器很容易被對抗性提示繞過。REINS通過在推理時引導模型的內部表示朝向安全生成,從而避免這些缺陷,無需權重更新,也無需枚舉概念。
該研究的核心發現是,安全相關信息線性地編碼在視頻擴散Transformer的隱藏狀態激活中。通過監督主成分分析(Supervised PCA)在二元安全標籤上發現一個單一方向,足以區分安全與不安全的生成軌跡。在推理時,將該方向添加到中間Transformer層的隱藏狀態中,即可將生成從有害內容重定向到語義相關的安全替代內容。這一過程無需權重更新、無需枚舉概念,且計算開銷可以忽略不計。
通過機制分析,研究者進一步揭示了安全信息隨Transformer深度單調積累,但引導效果在中間層(約50%深度)達到峯值。這暴露了信息可用性與下游傳播能力之間的基本權衡:早期層的信息尚未充分積累,而深層雖然包含更多信息,但將其傳播到輸出位置的能力下降。因此,中間層成為最佳干預點。
REINS在9個視頻擴散模型、多種參數規模(1.3B至5B)以及文本到視頻和圖像到視頻生成任務上進行了評估。據研究者稱,這是視頻生成文獻中最廣泛的安全評估套件。實驗結果表明,REINS能夠有效降低不安全內容的生成,同時保持生成質量。這一方法為視頻擴散模型的安全部署提供了實用且高效的解決方案。