ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法
本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。
文章情报
要点
- ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
- 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。
- 多奖励学习策略利用公共奖励和个性化偏好模型,无需标注数据。
- 实验证明ICG提升图像质量、语义保真度及个性化效果。
为什么重要
这条新闻值得关注,因为ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
封面图像在数字平台中对用户参与度具有重要影响,但个性化封面生成的研究尚不充分。近期,来自多个机构的研究人员提出了一种名为ICG(Improving Cover Image Generation)的创新框架,旨在通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量且上下文匹配的封面图像。该论文已被EMNLP 2025会议接收,并于2026年4月8日提交至arXiv。
ICG框架的核心在于其创新的元标记机制。该机制从商品标题和参考图像中提取语义特征,随后利用用户嵌入对这些元标记进行精细化处理,最终将个性化上下文注入到扩散模型中。这一过程使得生成的封面图像能够更好地匹配用户偏好和内容语义,同时保持与原始商品的高度相关性。
针对标签监督数据匮乏的挑战,研究团队设计了一种多奖励学习策略。该策略融合了公共美学奖励、相关性奖励以及基于用户行为训练的个性化偏好模型。通过多奖励协同优化,ICG能够在无真实标签的情况下实现有效的模型训练,从而显著降低了数据标注成本。
与依赖于手工设计提示和分离模块的传统方法不同,ICG采用了一种适配器架构,将MLLM与扩散模型无缝连接,实现了端到端训练。这种设计不仅简化了流程,还增强了模型的兼容性:ICG可作为即插即用的适配器,适用于常见的扩散模型检查点,如Stable Diffusion等。
实验结果显示,ICG在图像质量、语义保真度和个性化匹配度上均取得了显著进步。在多个下游任务中,该框架不仅提升了用户的视觉吸引力,还提高了离线推荐的准确性。研究团队表示,ICG在电商、社交媒体等内容平台具有广泛的应用前景,有望为用户提供更加个性化的视觉体验。