2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

VideoKR：面向知識與推理密集型視頻理解

研究人員推出了VideoKR，這是首個專門用於增強知識和推理密集型視頻理解的大規模訓練語料庫，包含31.5萬個視頻推理示例和14.5萬個新收集的CC許可專家領域視頻。他們開發了人在迴路、面向技能的示例生成管道，並策劃了新的專家註釋基準VideoKR-Eval。實驗表明，在標準SFT→GRPO流程下，基於VideoKR後訓練的模型在知識密集型視頻推理上優於以往方法，同時在通用視頻推理上保持競爭力。

來源arXiv Computer Vision作者: Lin Fu, Zheyuan Yang, Yang Wang, Tingyu Song, Arman Cohan, Yilun Zhao

近年來，視頻理解研究取得了顯著進展，但大多數現有數據集主要關注物體識別、動作分類等基礎任務，難以應對需要深度知識和複雜推理的場景。針對這一侷限，來自多所機構的研究團隊提出了VideoKR——首個專門用於增強知識密集型視頻理解的大規模訓練語料庫。該研究成果已被機器學習頂級會議ICML 2026接收為Spotlight論文。

VideoKR數據集包含31.5萬個視頻推理示例，這些示例來自14.5萬個新收集的、採用知識共享許可（CC）的專家領域視頻，涵蓋科學實驗、歷史紀錄片、技術教程等多個專業領域。與現有數據集不同，VideoKR的每個示例都附帶詳細的思維鏈（CoT）推理過程，幫助模型學習逐步推理能力。

數據集的構建採用了創新的“人在迴路”與技能導向生成管道。研究人員首先定義了不同層次的視頻推理技能，如事實檢索、因果推斷、多步驟推理等，然後通過人工標註和自動生成相結合的方式，逐步生成難度遞增的示例。該管道確保了數據的高質量、多樣性和可靠性，並且注重避免文本捷徑，迫使模型真正理解視頻內容。

為了公正評估模型的推理能力，團隊還精心策劃了VideoKR-Eval基準測試集。該基準由專家手工標註，問題設計需要真正的視頻理解和知識密集型推理，無法僅憑文本線索回答。這使得評估結果更具説服力。

在實驗部分，研究團隊採用標準的監督微調（SFT）後接羣體相對策略優化（GRPO）的訓練流程。結果顯示，基於VideoKR後訓練的模型在知識密集型視頻推理任務上顯著超越了此前的最優方法，同時在通用視頻推理任務上保持了競爭力。廣泛的消融實驗進一步驗證了VideoKR中各組件（如CoT、技能導向設計）的貢獻，為未來研究提供了可操作的指導。

VideoKR的發佈為視頻理解領域提供了一種新的數據驅動範式，表明高質量、針對性強的訓練數據是推動推理能力提升的關鍵因素。研究人員已公開數據集和代碼，期望促進更多關於知識與推理密集型視頻理解的研究。