AI News HubLIVE
站内改写1 分鐘閱讀

將圖像風格訓練壓縮為單次模型前向傳播

研究提出了i2L(圖像到LoRA)框架,將風格LoRA訓練攤銷為單次前向傳播,無需針對每種風格單獨優化。通過圖像編碼器、可學習LoRA查詢和壓縮解碼頭預測LoRA權重,在Z-Image、FLUX.2和Hidream-O1上提升了風格保真度、提示對齊和感知質量。

來源arXiv Computer Vision作者: Zhongjie Duan, Yingda Chen

近日,一篇題為《Compressing Image Style Training into a Single Model Forward》的論文在arXiv上公開發表(arXiv:2606.13809),提出了一種名為i2L(圖像到LoRA)的創新框架。該論文由Zhongjie Duan和Yingda Chen撰寫,於2026年6月11日提交,共11頁9張圖。i2L旨在解決擴散模型風格遷移中推理效率與風格保真度之間的平衡問題。

傳統的基於適配器的方法雖然高效,但將風格作為外部條件注入時,可能會削弱參考圖像的特定外觀,或者將參考語義直接複製到生成圖像中。而基於優化的個性化方法如LoRA能更有效地內化風格,但需要針對每種新風格進行單獨的優化過程。i2L框架通過將風格LoRA訓練攤銷為單次前向傳播,克服了這些限制。給定一張或多張參考圖像,i2L可以直接預測文本到圖像模型的LoRA權重,無需針對每種風格進行優化,從而實現了即時的風格實例化。

i2L的架構結合了圖像編碼器、可學習LoRA查詢和壓縮解碼頭,能夠生成適配的低秩矩陣。訓練時,使用語義多樣化的風格對,鼓勵預測器保留外觀線索的同時抑制參考內容的複製。論文在Z-Image、FLUX.2和Hidream-O1等多個模型上進行了實驗,結果均表明i2L在風格保真度、提示對齊和感知質量方面顯著優於現有基線方法。

由於i2L產生明確的LoRA權重,它還支持非對稱無分類器引導、多參考風格融合以及與可控生成模塊的組合,例如與ControlNet等方法的結合。這一特性賦予了i2L廣泛的應用潛力,包括藝術風格化、個性化圖像生成等領域。