LCG:基于稀疏关系注意力的长上下文一致图像生成
本文提出LCG框架,通过稀疏关系注意力(SRA)和路由一致性约束(RCC)实现长上下文多图像生成中的一致性和可扩展性,并构建了大规模合成数据集LCCD。实验表明,LCG在提示对齐和角色一致性方面优于基线方法。
近年来,图像生成模型在单图像合成领域取得了令人瞩目的成果,然而当需要生成连续图像序列(如漫画、故事板或视觉叙事)时,这些模型往往难以保持角色、风格和场景的一致性。针对这一挑战,来自学术界的研究团队提出了长上下文生成(Long-Context Generation,简称LCG)框架,旨在提升多图像文本到图像生成在长序列下的一致性与可扩展性。
LCG的核心创新包括两大技术:稀疏关系注意力(SRA)机制和路由一致性约束(RCC)。SRA通过选择性地关注跨扩展视觉上下文中的核心特征,使得语义和布局信息的传播在计算上保持高效且可操作。与传统的全连接注意力不同,SRA只对关键关系进行建模,从而显著降低了计算复杂度,同时保留了必要的全局信息。RCC则利用身份感知掩码来对齐不同生成分支中的结构模式,有效抑制了复杂多角色场景中的外观漂移现象。这一约束确保了同一角色在不同图像中保持视觉一致性,即使场景变化较大。
为了支持大规模训练和标准化评估,研究团队构建了一个专门的数据集——长上下文一致性数据集(LCCD)。LCCD是一个大规模的合成数据集,包含60万个训练序列和独立的1000个测试序列,每个序列由6至20张图像组成,聚焦于角色在不同情境下的表现。数据集的多样性和规模为长上下文图像生成的研究提供了坚实的基础。
在实验中,LCG与多个基线模型进行了比较,包括基于扩散模型的传统方法。结果表明,LCG在提示对齐和角色一致性方面显著优于现有方法,特别是在多角色场景下,其优势更为突出。这一成果为视觉叙事、漫画自动化生成以及交互式故事板创建等实际应用提供了有效的解决方案。
未来的研究方向可能包括将LCG扩展到更广泛的视觉上下文,例如不同分辨率、动态背景或跨模态输入,以及进一步优化模型的计算效率以适应实时应用场景。