通过结构细化减轻生成式AI图像编辑中的内容偏移与幻觉
本文提出了一种后处理框架,用于融合原始图像与生成式AI增强图像,在保留感知增强的同时强制结构保真度,有效抑制空间错位、纹理扭曲和内容幻觉。实验表明,该方法在保持像素级结构一致性和输入分辨率的同时,更好地保留了美学质量。
近年来,以Nano Banana为代表的生成式AI(GenAI)图像编辑器取得了显著进展,使得非专业用户仅通过文本提示即可对图像进行重触,生成视觉上令人满意的结果。然而,这些模型的生成特性常常导致空间错位、纹理扭曲和内容幻觉等问题,例如,原本应该平滑的区域出现不自然的纹理,或者图像中出现不存在于原始场景中的物体。这类问题对于需要像素级保真度的下游工作流,如专业图像处理、医学影像分析或计算机视觉任务,是极为不利的。
针对这一挑战,由Luxi Zhao等人组成的研究团队在最新提交至arXiv的论文中(编号:2605.30437),提出了一个名为“结构保持生成式AI融合”(structure-preserving GenAI fusion)的新问题设定。其核心目标是:在使用黑盒GenAI图像重触模型时,既要保留GenAI输出所带来的感知增强效果,如色彩鲜艳度、细节清晰度等,又要强制保持对原始输入图像的结构忠实性,即确保图像的主体形状、边缘和空间布局不发生显著改变。
为了解决这一难题,该团队设计了一个后处理框架。该框架首先在输入图像与其GenAI增强版本之间建立粗略的空间和光度对应关系。这一步骤类似于图像配准,但更加高效,仅需找到大致的对齐关系。随后,框架执行一个融合阶段,将所需的增强效果从GenAI输出转移到原始图像上,同时抑制那些由模型幻觉产生的内容。为了避免直接比较时的偏差,研究者在缺乏直接先验工作的情况下,将所提框架与光真实感风格迁移和图像融合领域的代表性方法进行了系统的比较实验。
实验结果表明,所提出的方法在保持像素级结构一致性和输入原始分辨率的同时,能够更好地保留美学质量。具体来说,该方法在定量指标(如PSNR、SSIM)和定性评估上均优于现有方法,尤其是在处理具有复杂纹理和精细细节的图像时,优势更为明显。这一成果不仅为生成式AI图像编辑中的保真度问题提供了一种有效的解决方案,也为未来的相关研究开辟了新的方向。论文已在arXiv上发布,并提交至计算机视觉与模式识别(cs.CV)类别,感兴趣的读者可以进一步查阅。