2026-05-27 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

LongAV-Compass：面向分钟级视听生成的统一评估框架

LongAV-Compass是一个系统化基准，用于评估分钟级视听生成任务，涵盖文本到视听、图像到视听和视频到视听三种模态。包含284个测试案例，集成多模态大模型辅助评估和感知指标，评估超过20个细粒度维度。对11个代表性模型的实验揭示了当前系统在长时间生成中的局限性。

来源arXiv Computer Vision作者: Tengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang

随着人工智能生成内容技术的飞速发展，视听生成领域正从短片段（如5-10秒）向分钟级长内容迈进。然而，现有的评估基准和协议大多仍局限于短片段设置，缺乏对长时生成任务中身份一致性、叙事连贯性及视音频同步能力的系统评估。为了填补这一空白，来自多所研究机构的团队（包括Tengfei Liu等20位作者）在arXiv上发表了题为《LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV》的论文，提出了一个名为LongAV-Compass的统一评估基准。

LongAV-Compass基准包含284个精心设计的测试案例，覆盖三种条件输入模态：文本到视听（T2AV）、图像到视听（I2AV）和视频到视听（V2AV）。这些案例根据应用场景和生成复杂度进行了系统分类，确保评估的全面性和代表性。与以往仅支持单一模态的基准不同，LongAV-Compass首次实现了对多种条件模态的统一评估，为跨模态生成研究提供了重要工具。

在评估方法上，该基准采用了创新的双重评估框架。一方面，利用多模态大模型（MLLM）进行辅助评估，捕捉生成内容的高级语义和叙事结构；另一方面，引入了一系列互补的感知和多模态指标，包括DINO-v2（用于物体级别的一致性）、ArcFace（用于人脸身份保持）、CLIP（用于文本-视觉语义对齐）和ImageBind（用于跨模态绑定）。整个评估体系涵盖超过20个细粒度维度，例如片段内质量（如音频清晰度、视频帧稳定性）、跨段一致性（如场景过渡的自然度）、全局叙事连贯性（如故事线的逻辑性）、语义对齐（如文本描述与生成内容的匹配度）以及视听同步（如音频与画面在时间上的精确对齐）。

为了验证基准的有效性，研究团队在11个代表性视听生成模型上进行了实验，并结合人工对齐验证。实验结果表明，尽管现有模型在短片段生成上已取得不错的效果，但在分钟级生成任务中普遍存在身份一致性丢失、叙事连贯性下降以及视听不同步等问题。例如，在T2AV任务中，模型生成的视频内容往往在数十秒后出现人物面部不连续或环境音与画面脱节的现象；在I2AV任务中，静态图像驱动的动态生成容易引入冗余或无关事件；而在V2AV任务中，模型对原视频的语义保持和音频适配能力也表现出明显短板。这些发现揭示了当前技术向长时应用（如影视制作、虚拟现实、教育内容生成）拓展时面临的重大挑战。

LongAV-Compass的提出不仅为研究者提供了一个标准化的诊断测试平台，也为未来开发更稳健的分钟级视听生成模型指明了方向。该基准的开源和标准化有望推动该领域更快地从实验室走向实际应用。论文的详细信息可在arXiv上查阅，编号为2605.26244。