2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

拉動韁繩：透過表示引導實現影片擴散模型的免訓練安全對齊

REINS 是一種無需訓練的方法，透過在推理時引導內部表示朝向安全生成，來對齊影片擴散模型。它使用監督主成分分析找到一個單一方向，將安全與不安全的生成軌跡分開，並在中間Transformer層應用，計算開銷極低。在9個模型上進行評估，是影片生成領域最廣泛的安全評估。

來源arXiv Computer Vision作者: Rohit Kundu, Arindam Dutta, Sarosij Bose, Athula Balachandran, Amit K. Roy-Chowdhury

近日，一篇題為“Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering”的論文提交至arXiv（論文ID：2606.17257），提出了一種名為REINS（REpresentation-space INference-time Safety steering）的免訓練安全對齊方法，專門針對影片擴散模型。該研究由Rohit Kundu等五位作者共同完成，於2026年6月15日釋出。

隨著開源權重影片擴散模型的發展，這些模型能夠生成逼真的不安全內容，從暴力場景到虛假資訊，引發了廣泛的安全擔憂。現有的防禦手段面臨兩難：要麼需要進行昂貴的安全性微調，但這會降低模型的一般能力；要麼依賴外部過濾器，而這類過濾器很容易被對抗性提示繞過。REINS透過在推理時引導模型的內部表示朝向安全生成，從而避免這些缺陷，無需權重更新，也無需列舉概念。

該研究的核心發現是，安全相關資訊線性地編碼在影片擴散Transformer的隱藏狀態啟用中。透過監督主成分分析（Supervised PCA）在二元安全標籤上發現一個單一方向，足以區分安全與不安全的生成軌跡。在推理時，將該方向新增到中間Transformer層的隱藏狀態中，即可將生成從有害內容重定向到語義相關的安全替代內容。這一過程無需權重更新、無需列舉概念，且計算開銷可以忽略不計。

透過機制分析，研究者進一步揭示了安全資訊隨Transformer深度單調積累，但引導效果在中間層（約50%深度）達到峰值。這暴露了資訊可用性與下游傳播能力之間的基本權衡：早期層的資訊尚未充分積累，而深層雖然包含更多資訊，但將其傳播到輸出位置的能力下降。因此，中間層成為最佳干預點。

REINS在9個影片擴散模型、多種引數規模（1.3B至5B）以及文本到影片和影像到影片生成任務上進行了評估。據研究者稱，這是影片生成文獻中最廣泛的安全評估套件。實驗結果表明，REINS能夠有效降低不安全內容的生成，同時保持生成質量。這一方法為影片擴散模型的安全部署提供了實用且高效的解決方案。