VideoOdyssey:超長上下文與全模態視頻理解基準
VideoOdyssey是一個專為超長時間上下文和全模態視頻理解設計的基準,平均視頻時長109分鐘,覆蓋11個領域54個子類別,通過連續證書長度衡量認知負荷,並設有5個粒度級別。評估表明當前多模態大模型在持續推理、細粒度感知和非語言全模態理解方面存在瓶頸。
文章情報
要點
- 引入連續證書長度概念,衡量模型在超長視頻中的推理能力。
- 包含視覺子集(VideoOdyssey-V)和音視頻子集(VideoOdyssey-AV)。
- 平均連續證書長度為16分鐘(V)和12.8分鐘(AV),設5個時間粒度。
- 發現當前模型在持續推理、細粒度感知和非語言理解上存在短板。
為甚麼重要
這條新聞值得關注,因為引入連續證書長度概念,衡量模型在超長視頻中的推理能力。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近日,一項名為VideoOdyssey的新基準被提出,旨在推動超長上下文和全模態視頻理解的研究。該基準由Haichen He等六位研究者共同完成,論文已提交至arXiv(編號2605.22907),並於2026年5月21日發佈。
VideoOdyssey的核心創新在於引入“連續證書長度”這一指標,即人類必須連續觀看視頻才能準確回答問題的時長,以此量化模型在極長視頻中的認知負荷。現有基準雖延長了視頻時長,但評估任務往往僅依賴短片段,未能真正考驗模型的持續推理能力。
該基準具有三大特點:首先,視頻時長極長且多樣化,平均時長達到109分鐘,覆蓋11個領域和54個子類別,包括新聞、紀錄片、講座等多種類型;其次,提供兩個評估子集——VideoOdyssey-V專注視覺理解,VideoOdyssey-AV則評估同步音視頻理解,為不同研究方向提供針對性測試;最後,平均連續證書長度在V子集中為16分鐘,在AV子集中為12.8分鐘,並設置了從秒到小時的5個粒度級別(秒、分鐘、10分鐘、30分鐘、小時),形成全面的診斷工具,能夠評估模型在不同上下文長度和認知負荷下的表現。
通過對當前主流多模態大語言模型(MLLMs)的廣泛評估,研究者發現模型的瓶頸不僅限於簡單的信息檢索,更體現在不同上下文長度下的持續推理、細粒度感知以及非語言全模態理解等能力的不足。例如,模型在處理長視頻中的連續事件跟蹤、跨模態信息整合以及非語言線索(如手勢、環境音)理解方面表現欠佳。VideoOdyssey的發佈為未來超長視頻理解模型的研發提供了更具挑戰性的測試平台,有望推動該領域的突破性進展。