AI News HubLIVE
站内改写1 分钟阅读

FreeStory:无需训练的视觉故事生成中角色一致性保持方法

视觉故事生成要求图像序列与叙述提示对齐且角色外观一致。现有免训练方法依赖结构化提示(每句重复完整描述),不符合自然叙述。FreeStory通过实体引导的特征复用,在自由形式提示下保持角色一致性,并引入FreeStoryBench基准,在单/多角色故事中均达到领先水平。

来源arXiv Computer Vision作者: Sibo Dong, Ismail Shaheen, Sarah Adel Bargal

视觉故事生成旨在生成与叙述提示对齐且角色外观一致的图像序列。现有免训练方法通过重用注意力特征来提升一致性,但依赖结构化提示——每个提示中重复完整的角色描述。这种假设简化了任务,却偏离了自然叙述方式:角色通常只介绍一次,之后用代词或类型化表达指代。

为解决这一局限,来自多所机构的研究者提出了FreeStory,一个免训练框架,将自由形式提示下的角色一致性重新定义为实体引导的特征复用。该方法将参考指代与对应的角色描述关联,结合动态角色掩码、对应感知特征匹配、键值注入和查询混合,在保持身份的同时保留生成多样性。

具体来说,FreeStory首先通过实体识别模块定位每个提及对应的角色描述。然后,利用动态角色掩码突出相关区域,进行对应感知的特征匹配,建立跨图像的对应关系。接着,通过键值注入将角色特征注入到生成过程中,并使用查询混合平衡身份保持与多样性。这些组件协同工作,使得在自由形式提示(如“一个男孩在公园里玩球。他随后回家。”)下,角色外观保持一致。

研究团队还引入了FreeStoryBench,一个针对该设置的新基准,包含单角色和多角色故事,涵盖多种叙述风格。实验表明,FreeStory在结构化基准上达到了免训练方法中的最先进性能,在自由形式提示下相比基线具有更强的整体一致性。该工作为无需额外训练的自然故事视觉化提供了有效方案,尤其适用于用户以更灵活方式描述角色的场景。未来工作可探索将该框架扩展到更多角色和更复杂的故事线。

FreeStory:无需训练的视觉故事生成中角色一致性保持方法 | AI News Hub