拉動韁繩:透過表示引導實現影片擴散模型的免訓練安全對齊
REINS 是一種無需訓練的方法,透過在推理時引導內部表示朝向安全生成,來對齊影片擴散模型。它使用監督主成分分析找到一個單一方向,將安全與不安全的生成軌跡分開,並在中間Transformer層應用,計算開銷極低。在9個模型上進行評估,是影片生成領域最廣泛的安全評估。
近日,一篇題為“Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering”的論文提交至arXiv(論文ID:2606.17257),提出了一種名為REINS(REpresentation-space INference-time Safety steering)的免訓練安全對齊方法,專門針對影片擴散模型。該研究由Rohit Kundu等五位作者共同完成,於2026年6月15日釋出。
隨著開源權重影片擴散模型的發展,這些模型能夠生成逼真的不安全內容,從暴力場景到虛假資訊,引發了廣泛的安全擔憂。現有的防禦手段面臨兩難:要麼需要進行昂貴的安全性微調,但這會降低模型的一般能力;要麼依賴外部過濾器,而這類過濾器很容易被對抗性提示繞過。REINS透過在推理時引導模型的內部表示朝向安全生成,從而避免這些缺陷,無需權重更新,也無需列舉概念。
該研究的核心發現是,安全相關資訊線性地編碼在影片擴散Transformer的隱藏狀態啟用中。透過監督主成分分析(Supervised PCA)在二元安全標籤上發現一個單一方向,足以區分安全與不安全的生成軌跡。在推理時,將該方向新增到中間Transformer層的隱藏狀態中,即可將生成從有害內容重定向到語義相關的安全替代內容。這一過程無需權重更新、無需列舉概念,且計算開銷可以忽略不計。
透過機制分析,研究者進一步揭示了安全資訊隨Transformer深度單調積累,但引導效果在中間層(約50%深度)達到峰值。這暴露了資訊可用性與下游傳播能力之間的基本權衡:早期層的資訊尚未充分積累,而深層雖然包含更多資訊,但將其傳播到輸出位置的能力下降。因此,中間層成為最佳干預點。
REINS在9個影片擴散模型、多種引數規模(1.3B至5B)以及文本到影片和影像到影片生成任務上進行了評估。據研究者稱,這是影片生成文獻中最廣泛的安全評估套件。實驗結果表明,REINS能夠有效降低不安全內容的生成,同時保持生成質量。這一方法為影片擴散模型的安全部署提供了實用且高效的解決方案。