2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

VideoOdyssey：超长上下文与全模态视频理解基准

VideoOdyssey是一个专为超长时间上下文和全模态视频理解设计的基准，平均视频时长109分钟，覆盖11个领域54个子类别，通过连续证书长度衡量认知负荷，并设有5个粒度级别。评估表明当前多模态大模型在持续推理、细粒度感知和非语言全模态理解方面存在瓶颈。

来源arXiv Computer Vision作者: Haichen He, Jiayi Zhou, Sifeng Shang, Yihan Hu, Yuanhan Zhang, Kaiyang Zhou

近日，一项名为VideoOdyssey的新基准被提出，旨在推动超长上下文和全模态视频理解的研究。该基准由Haichen He等六位研究者共同完成，论文已提交至arXiv（编号2605.22907），并于2026年5月21日发布。

VideoOdyssey的核心创新在于引入“连续证书长度”这一指标，即人类必须连续观看视频才能准确回答问题的时长，以此量化模型在极长视频中的认知负荷。现有基准虽延长了视频时长，但评估任务往往仅依赖短片段，未能真正考验模型的持续推理能力。

该基准具有三大特点：首先，视频时长极长且多样化，平均时长达到109分钟，覆盖11个领域和54个子类别，包括新闻、纪录片、讲座等多种类型；其次，提供两个评估子集——VideoOdyssey-V专注视觉理解，VideoOdyssey-AV则评估同步音视频理解，为不同研究方向提供针对性测试；最后，平均连续证书长度在V子集中为16分钟，在AV子集中为12.8分钟，并设置了从秒到小时的5个粒度级别（秒、分钟、10分钟、30分钟、小时），形成全面的诊断工具，能够评估模型在不同上下文长度和认知负荷下的表现。

通过对当前主流多模态大语言模型（MLLMs）的广泛评估，研究者发现模型的瓶颈不仅限于简单的信息检索，更体现在不同上下文长度下的持续推理、细粒度感知以及非语言全模态理解等能力的不足。例如，模型在处理长视频中的连续事件跟踪、跨模态信息整合以及非语言线索（如手势、环境音）理解方面表现欠佳。VideoOdyssey的发布为未来超长视频理解模型的研发提供了更具挑战性的测试平台，有望推动该领域的突破性进展。