2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 16:01 UTC+8

FreeStory：无需训练的视觉故事生成中角色一致性保持方法

视觉故事生成要求图像序列与叙述提示对齐且角色外观一致。现有免训练方法依赖结构化提示（每句重复完整描述），不符合自然叙述。FreeStory通过实体引导的特征复用，在自由形式提示下保持角色一致性，并引入FreeStoryBench基准，在单/多角色故事中均达到领先水平。

来源arXiv Computer Vision作者: Sibo Dong, Ismail Shaheen, Sarah Adel Bargal

视觉故事生成旨在生成与叙述提示对齐且角色外观一致的图像序列。现有免训练方法通过重用注意力特征来提升一致性，但依赖结构化提示——每个提示中重复完整的角色描述。这种假设简化了任务，却偏离了自然叙述方式：角色通常只介绍一次，之后用代词或类型化表达指代。

为解决这一局限，来自多所机构的研究者提出了FreeStory，一个免训练框架，将自由形式提示下的角色一致性重新定义为实体引导的特征复用。该方法将参考指代与对应的角色描述关联，结合动态角色掩码、对应感知特征匹配、键值注入和查询混合，在保持身份的同时保留生成多样性。

具体来说，FreeStory首先通过实体识别模块定位每个提及对应的角色描述。然后，利用动态角色掩码突出相关区域，进行对应感知的特征匹配，建立跨图像的对应关系。接着，通过键值注入将角色特征注入到生成过程中，并使用查询混合平衡身份保持与多样性。这些组件协同工作，使得在自由形式提示（如“一个男孩在公园里玩球。他随后回家。”）下，角色外观保持一致。

研究团队还引入了FreeStoryBench，一个针对该设置的新基准，包含单角色和多角色故事，涵盖多种叙述风格。实验表明，FreeStory在结构化基准上达到了免训练方法中的最先进性能，在自由形式提示下相比基线具有更强的整体一致性。该工作为无需额外训练的自然故事视觉化提供了有效方案，尤其适用于用户以更灵活方式描述角色的场景。未来工作可探索将该框架扩展到更多角色和更复杂的故事线。