2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

ICG：基于MLLM提示与个性化偏好对齐的封面图像生成改进方法

本文提出ICG框架，通过融合多模态大语言模型（MLLM）提示与个性化偏好对齐，生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征，结合用户嵌入进行细化，并将个性化上下文注入扩散模型。采用多奖励学习策略，结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型，无需标注数据。实验表明，ICG在图像质量、语义保真度和个性化方面显著提升，增强了用户吸引力及下游推荐准确性。

来源arXiv Computational Linguistics作者: Zhipeng Bian, Jieming Zhu, Qijiong Liu, Wang Lin, Guohao Cai, Zhaocheng Du, Jiacheng Sun, Zhou Zhao, Zhenhua Dong

封面图像在数字平台中对用户参与度具有重要影响，但个性化封面生成的研究尚不充分。近期，来自多个机构的研究人员提出了一种名为ICG（Improving Cover Image Generation）的创新框架，旨在通过融合多模态大语言模型（MLLM）提示与个性化偏好对齐，生成高质量且上下文匹配的封面图像。该论文已被EMNLP 2025会议接收，并于2026年4月8日提交至arXiv。

ICG框架的核心在于其创新的元标记机制。该机制从商品标题和参考图像中提取语义特征，随后利用用户嵌入对这些元标记进行精细化处理，最终将个性化上下文注入到扩散模型中。这一过程使得生成的封面图像能够更好地匹配用户偏好和内容语义，同时保持与原始商品的高度相关性。

针对标签监督数据匮乏的挑战，研究团队设计了一种多奖励学习策略。该策略融合了公共美学奖励、相关性奖励以及基于用户行为训练的个性化偏好模型。通过多奖励协同优化，ICG能够在无真实标签的情况下实现有效的模型训练，从而显著降低了数据标注成本。

与依赖于手工设计提示和分离模块的传统方法不同，ICG采用了一种适配器架构，将MLLM与扩散模型无缝连接，实现了端到端训练。这种设计不仅简化了流程，还增强了模型的兼容性：ICG可作为即插即用的适配器，适用于常见的扩散模型检查点，如Stable Diffusion等。

实验结果显示，ICG在图像质量、语义保真度和个性化匹配度上均取得了显著进步。在多个下游任务中，该框架不仅提升了用户的视觉吸引力，还提高了离线推荐的准确性。研究团队表示，ICG在电商、社交媒体等内容平台具有广泛的应用前景，有望为用户提供更加个性化的视觉体验。