2026-07-03 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 16:16 UTC+8

KathaTrace：診斷生成視覺敘事中的語義軌跡崩潰

KathaTrace是一種與生成器無關的協議，用於診斷視覺敘事中的語義軌跡崩潰，即場景間語義連線丟失。研究者構建了KathaBench-25K資料集，包含5000個經典敘事，定義了語義軌跡差距（STG）指標。實驗顯示現有生成器的STG高達23.5±1.3。Semantic Compass利用KathaTrace訊號進行後生成修復，改善故事板選擇。

來源arXiv Computer Vision作者: Jamuna S. Murthy, Amin Karimi Monsefi, Rajiv Ramnath

視覺敘事在故事板、漫畫、兒童媒體和電影預視覺化中扮演著核心角色，觀眾僅透過連續影像就能理解完整的故事情節。然而，近年來諸如StoryDiffusion等先進的影像生成器雖然能夠產生視覺上連貫的序列，但這種視覺連貫性並不能保證源故事中場景之間轉換的語義意義仍然能夠被恢復。現有的評估基準主要聚焦於視覺質量、內容忠實度以及場景內部的一致性，卻忽視了一個關鍵的失敗模式：故事板中的各個場景在視覺上看似連貫，但場景之間的語義聯絡卻徹底消失了，導致觀眾無法理解故事的發展邏輯。

為了攻克這一難題，研究者團隊提出了KathaTrace——一種與具體生成器無關的診斷協議，專門用於檢測和量化語義軌跡崩潰（semantic trajectory collapse）。所謂語義軌跡崩潰，指的是理解一個場景如何自然過渡到下一個場景所需的轉換意義在視覺化過程中丟失的現象。KathaTrace協議在三種證據條件下評估每一處場景轉換：僅提供文本描述、僅提供影像序列、以及同時提供文本和影像，並自動過濾掉模糊不清的轉換專案，確保評估的可靠性。

同時，研究者貢獻了KathaBench-25K資料集，該資料集從伊索寓言、五卷書（Panchatantra）和故事海（Kathasaritasagara）等經典文學集中精選了5000個經典敘事，包含20000個場景轉換以及28712個精心設計的可恢復性問題，為評估提供了豐富的素材。為了量化視覺化過程中丟失的轉換意義，研究者引入了語義軌跡差距（Semantic Trajectory Gap，STG）指標，定義為僅文本條件下的可恢復性減去僅影像條件下的可恢復性，差值越大表示語義丟失越嚴重。經過人工驗證，該指標具有高度一致性（Fleiss' kappa = 0.845）。

在對當前最先進的影像生成器進行系統實驗後，結果顯示這些生成器的STG值平均高達23.5±1.3，證實了語義軌跡崩潰是一個普遍且嚴重的問題。為了彌補這一缺陷，研究者還開發了Semantic Compass，這是一種利用KathaTrace訊號進行後續生成修復的可操作性探針，能夠有效改進故事板的選擇和排列，提升整體的敘事連貫性。

KathaTrace及其配套資料集KathaBench-25K為視覺敘事生成領域提供了全新的評估視角和實用工具。它不僅揭示了現有生成器在語義連貫性方面的不足，也為未來設計更加符合人類認知和敘事邏輯的生成系統指明瞭方向。該工作有望推動故事板生成、漫畫製作以及自動電影預覽等相關技術的進步。