AI News HubLIVE
站内改写2 分鐘閱讀

通過結構細化減輕生成式AI圖像編輯中的內容偏移與幻覺

本文提出了一種後處理框架,用於融合原始圖像與生成式AI增強圖像,在保留感知增強的同時強制結構保真度,有效抑制空間錯位、紋理扭曲和內容幻覺。實驗表明,該方法在保持像素級結構一致性和輸入分辨率的同時,更好地保留了美學質量。

來源arXiv Computer Vision作者: Luxi Zhao, Michael S. Brown

近年來,以Nano Banana為代表的生成式AI(GenAI)圖像編輯器取得了顯著進展,使得非專業用户僅通過文本提示即可對圖像進行重觸,生成視覺上令人滿意的結果。然而,這些模型的生成特性常常導致空間錯位、紋理扭曲和內容幻覺等問題,例如,原本應該平滑的區域出現不自然的紋理,或者圖像中出現不存在於原始場景中的物體。這類問題對於需要像素級保真度的下游工作流,如專業圖像處理、醫學影像分析或計算機視覺任務,是極為不利的。

針對這一挑戰,由Luxi Zhao等人組成的研究團隊在最新提交至arXiv的論文中(編號:2605.30437),提出了一個名為“結構保持生成式AI融合”(structure-preserving GenAI fusion)的新問題設定。其核心目標是:在使用黑盒GenAI圖像重觸模型時,既要保留GenAI輸出所帶來的感知增強效果,如色彩鮮豔度、細節清晰度等,又要強制保持對原始輸入圖像的結構忠實性,即確保圖像的主體形狀、邊緣和空間佈局不發生顯著改變。

為了解決這一難題,該團隊設計了一個後處理框架。該框架首先在輸入圖像與其GenAI增強版本之間建立粗略的空間和光度對應關係。這一步驟類似於圖像配準,但更加高效,僅需找到大致的對齊關係。隨後,框架執行一個融合階段,將所需的增強效果從GenAI輸出轉移到原始圖像上,同時抑制那些由模型幻覺產生的內容。為了避免直接比較時的偏差,研究者在缺乏直接先驗工作的情況下,將所提框架與光真實感風格遷移和圖像融合領域的代表性方法進行了系統的比較實驗。

實驗結果表明,所提出的方法在保持像素級結構一致性和輸入原始分辨率的同時,能夠更好地保留美學質量。具體來説,該方法在定量指標(如PSNR、SSIM)和定性評估上均優於現有方法,尤其是在處理具有複雜紋理和精細細節的圖像時,優勢更為明顯。這一成果不僅為生成式AI圖像編輯中的保真度問題提供了一種有效的解決方案,也為未來的相關研究開闢了新的方向。論文已在arXiv上發佈,並提交至計算機視覺與模式識別(cs.CV)類別,感興趣的讀者可以進一步查閲。