2026-07-03 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-03 16:16 UTC+8

KathaTrace：诊断生成视觉叙事中的语义轨迹崩溃

KathaTrace是一种与生成器无关的协议，用于诊断视觉叙事中的语义轨迹崩溃，即场景间语义连接丢失。研究者构建了KathaBench-25K数据集，包含5000个经典叙事，定义了语义轨迹差距（STG）指标。实验显示现有生成器的STG高达23.5±1.3。Semantic Compass利用KathaTrace信号进行后生成修复，改善故事板选择。

来源arXiv Computer Vision作者: Jamuna S. Murthy, Amin Karimi Monsefi, Rajiv Ramnath

视觉叙事在故事板、漫画、儿童媒体和电影预可视化中扮演着核心角色，观众仅通过连续图像就能理解完整的故事情节。然而，近年来诸如StoryDiffusion等先进的图像生成器虽然能够产生视觉上连贯的序列，但这种视觉连贯性并不能保证源故事中场景之间转换的语义意义仍然能够被恢复。现有的评估基准主要聚焦于视觉质量、内容忠实度以及场景内部的一致性，却忽视了一个关键的失败模式：故事板中的各个场景在视觉上看似连贯，但场景之间的语义联系却彻底消失了，导致观众无法理解故事的发展逻辑。

为了攻克这一难题，研究者团队提出了KathaTrace——一种与具体生成器无关的诊断协议，专门用于检测和量化语义轨迹崩溃（semantic trajectory collapse）。所谓语义轨迹崩溃，指的是理解一个场景如何自然过渡到下一个场景所需的转换意义在可视化过程中丢失的现象。KathaTrace协议在三种证据条件下评估每一处场景转换：仅提供文本描述、仅提供图像序列、以及同时提供文本和图像，并自动过滤掉模糊不清的转换项目，确保评估的可靠性。

同时，研究者贡献了KathaBench-25K数据集，该数据集从伊索寓言、五卷书（Panchatantra）和故事海（Kathasaritasagara）等经典文学集中精选了5000个经典叙事，包含20000个场景转换以及28712个精心设计的可恢复性问题，为评估提供了丰富的素材。为了量化可视化过程中丢失的转换意义，研究者引入了语义轨迹差距（Semantic Trajectory Gap，STG）指标，定义为仅文本条件下的可恢复性减去仅图像条件下的可恢复性，差值越大表示语义丢失越严重。经过人工验证，该指标具有高度一致性（Fleiss' kappa = 0.845）。

在对当前最先进的图像生成器进行系统实验后，结果显示这些生成器的STG值平均高达23.5±1.3，证实了语义轨迹崩溃是一个普遍且严重的问题。为了弥补这一缺陷，研究者还开发了Semantic Compass，这是一种利用KathaTrace信号进行后续生成修复的可操作性探针，能够有效改进故事板的选择和排列，提升整体的叙事连贯性。

KathaTrace及其配套数据集KathaBench-25K为视觉叙事生成领域提供了全新的评估视角和实用工具。它不仅揭示了现有生成器在语义连贯性方面的不足，也为未来设计更加符合人类认知和叙事逻辑的生成系统指明了方向。该工作有望推动故事板生成、漫画制作以及自动电影预览等相关技术的进步。