AI News HubLIVE
站内改写1 分钟阅读

将图像风格训练压缩为单次模型前向传播

研究提出了i2L(图像到LoRA)框架,将风格LoRA训练摊销为单次前向传播,无需针对每种风格单独优化。通过图像编码器、可学习LoRA查询和压缩解码头预测LoRA权重,在Z-Image、FLUX.2和Hidream-O1上提升了风格保真度、提示对齐和感知质量。

来源arXiv Computer Vision作者: Zhongjie Duan, Yingda Chen

近日,一篇题为《Compressing Image Style Training into a Single Model Forward》的论文在arXiv上公开发表(arXiv:2606.13809),提出了一种名为i2L(图像到LoRA)的创新框架。该论文由Zhongjie Duan和Yingda Chen撰写,于2026年6月11日提交,共11页9张图。i2L旨在解决扩散模型风格迁移中推理效率与风格保真度之间的平衡问题。

传统的基于适配器的方法虽然高效,但将风格作为外部条件注入时,可能会削弱参考图像的特定外观,或者将参考语义直接复制到生成图像中。而基于优化的个性化方法如LoRA能更有效地内化风格,但需要针对每种新风格进行单独的优化过程。i2L框架通过将风格LoRA训练摊销为单次前向传播,克服了这些限制。给定一张或多张参考图像,i2L可以直接预测文本到图像模型的LoRA权重,无需针对每种风格进行优化,从而实现了即时的风格实例化。

i2L的架构结合了图像编码器、可学习LoRA查询和压缩解码头,能够生成适配的低秩矩阵。训练时,使用语义多样化的风格对,鼓励预测器保留外观线索的同时抑制参考内容的复制。论文在Z-Image、FLUX.2和Hidream-O1等多个模型上进行了实验,结果均表明i2L在风格保真度、提示对齐和感知质量方面显著优于现有基线方法。

由于i2L产生明确的LoRA权重,它还支持非对称无分类器引导、多参考风格融合以及与可控生成模块的组合,例如与ControlNet等方法的结合。这一特性赋予了i2L广泛的应用潜力,包括艺术风格化、个性化图像生成等领域。