2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

VideoKR：面向知识与推理密集型视频理解

研究人员推出了VideoKR，这是首个专门用于增强知识和推理密集型视频理解的大规模训练语料库，包含31.5万个视频推理示例和14.5万个新收集的CC许可专家领域视频。他们开发了人在回路、面向技能的示例生成管道，并策划了新的专家注释基准VideoKR-Eval。实验表明，在标准SFT→GRPO流程下，基于VideoKR后训练的模型在知识密集型视频推理上优于以往方法，同时在通用视频推理上保持竞争力。

来源arXiv Computer Vision作者: Lin Fu, Zheyuan Yang, Yang Wang, Tingyu Song, Arman Cohan, Yilun Zhao

近年来，视频理解研究取得了显著进展，但大多数现有数据集主要关注物体识别、动作分类等基础任务，难以应对需要深度知识和复杂推理的场景。针对这一局限，来自多所机构的研究团队提出了VideoKR——首个专门用于增强知识密集型视频理解的大规模训练语料库。该研究成果已被机器学习顶级会议ICML 2026接收为Spotlight论文。

VideoKR数据集包含31.5万个视频推理示例，这些示例来自14.5万个新收集的、采用知识共享许可（CC）的专家领域视频，涵盖科学实验、历史纪录片、技术教程等多个专业领域。与现有数据集不同，VideoKR的每个示例都附带详细的思维链（CoT）推理过程，帮助模型学习逐步推理能力。

数据集的构建采用了创新的“人在回路”与技能导向生成管道。研究人员首先定义了不同层次的视频推理技能，如事实检索、因果推断、多步骤推理等，然后通过人工标注和自动生成相结合的方式，逐步生成难度递增的示例。该管道确保了数据的高质量、多样性和可靠性，并且注重避免文本捷径，迫使模型真正理解视频内容。

为了公正评估模型的推理能力，团队还精心策划了VideoKR-Eval基准测试集。该基准由专家手工标注，问题设计需要真正的视频理解和知识密集型推理，无法仅凭文本线索回答。这使得评估结果更具说服力。

在实验部分，研究团队采用标准的监督微调（SFT）后接群体相对策略优化（GRPO）的训练流程。结果显示，基于VideoKR后训练的模型在知识密集型视频推理任务上显著超越了此前的最优方法，同时在通用视频推理任务上保持了竞争力。广泛的消融实验进一步验证了VideoKR中各组件（如CoT、技能导向设计）的贡献，为未来研究提供了可操作的指导。

VideoKR的发布为视频理解领域提供了一种新的数据驱动范式，表明高质量、针对性强的训练数据是推动推理能力提升的关键因素。研究人员已公开数据集和代码，期望促进更多关于知识与推理密集型视频理解的研究。