2026-06-05 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

VideoKR：面向知識與推理密集型影片理解

研究人員推出了VideoKR，這是首個專門用於增強知識和推理密集型影片理解的大規模訓練語料庫，包含31.5萬個影片推理示例和14.5萬個新收集的CC許可專家領域影片。他們開發了人在迴路、面向技能的示例生成管道，並策劃了新的專家註釋基準VideoKR-Eval。實驗表明，在標準SFT→GRPO流程下，基於VideoKR後訓練的模型在知識密集型影片推理上優於以往方法，同時在通用影片推理上保持競爭力。

來源arXiv Computer Vision作者: Lin Fu, Zheyuan Yang, Yang Wang, Tingyu Song, Arman Cohan, Yilun Zhao

近年來，影片理解研究取得了顯著進展，但大多數現有資料集主要關注物體識別、動作分類等基礎任務，難以應對需要深度知識和複雜推理的場景。針對這一侷限，來自多所機構的研究團隊提出了VideoKR——首個專門用於增強知識密集型影片理解的大規模訓練語料庫。該研究成果已被機器學習頂級會議ICML 2026接收為Spotlight論文。

VideoKR資料集包含31.5萬個影片推理示例，這些示例來自14.5萬個新收集的、採用知識共享許可（CC）的專家領域影片，涵蓋科學實驗、歷史紀錄片、技術教程等多個專業領域。與現有資料集不同，VideoKR的每個示例都附帶詳細的思維鏈（CoT）推理過程，幫助模型學習逐步推理能力。

資料集的構建採用了創新的“人在迴路”與技能導向生成管道。研究人員首先定義了不同層次的影片推理技能，如事實檢索、因果推斷、多步驟推理等，然後透過人工標註和自動生成相結合的方式，逐步生成難度遞增的示例。該管道確保了資料的高質量、多樣性和可靠性，並且注重避免文本捷徑，迫使模型真正理解影片內容。

為了公正評估模型的推理能力，團隊還精心策劃了VideoKR-Eval基準測試集。該基準由專家手工標註，問題設計需要真正的影片理解和知識密集型推理，無法僅憑文本線索回答。這使得評估結果更具說服力。

在實驗部分，研究團隊採用標準的監督微調（SFT）後接群體相對策略最佳化（GRPO）的訓練流程。結果顯示，基於VideoKR後訓練的模型在知識密集型影片推理任務上顯著超越了此前的最優方法，同時在通用影片推理任務上保持了競爭力。廣泛的消融實驗進一步驗證了VideoKR中各元件（如CoT、技能導向設計）的貢獻，為未來研究提供了可操作的指導。

VideoKR的釋出為影片理解領域提供了一種新的資料驅動正規化，表明高質量、針對性強的訓練資料是推動推理能力提升的關鍵因素。研究人員已公開資料集和程式碼，期望促進更多關於知識與推理密集型影片理解的研究。