VideoOdyssey:超長上下文與全模態影片理解基準
VideoOdyssey是一個專為超長時間上下文和全模態影片理解設計的基準,平均影片時長109分鐘,覆蓋11個領域54個子類別,透過連續證書長度衡量認知負荷,並設有5個粒度級別。評估表明當前多模態大模型在持續推理、細粒度感知和非語言全模態理解方面存在瓶頸。
文章情報
要點
- 引入連續證書長度概念,衡量模型在超長影片中的推理能力。
- 包含視覺子集(VideoOdyssey-V)和音影片子集(VideoOdyssey-AV)。
- 平均連續證書長度為16分鐘(V)和12.8分鐘(AV),設5個時間粒度。
- 發現當前模型在持續推理、細粒度感知和非語言理解上存在短板。
為什麼重要
這條新聞值得關注,因為引入連續證書長度概念,衡量模型在超長影片中的推理能力。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近日,一項名為VideoOdyssey的新基準被提出,旨在推動超長上下文和全模態影片理解的研究。該基準由Haichen He等六位研究者共同完成,論文已提交至arXiv(編號2605.22907),並於2026年5月21日釋出。
VideoOdyssey的核心創新在於引入“連續證書長度”這一指標,即人類必須連續觀看影片才能準確回答問題的時長,以此量化模型在極長影片中的認知負荷。現有基準雖延長了影片時長,但評估任務往往僅依賴短片段,未能真正考驗模型的持續推理能力。
該基準具有三大特點:首先,影片時長極長且多樣化,平均時長達到109分鐘,覆蓋11個領域和54個子類別,包括新聞、紀錄片、講座等多種型別;其次,提供兩個評估子集——VideoOdyssey-V專注視覺理解,VideoOdyssey-AV則評估同步音影片理解,為不同研究方向提供針對性測試;最後,平均連續證書長度在V子集中為16分鐘,在AV子集中為12.8分鐘,並設定了從秒到小時的5個粒度級別(秒、分鐘、10分鐘、30分鐘、小時),形成全面的診斷工具,能夠評估模型在不同上下文長度和認知負荷下的表現。
透過對當前主流多模態大語言模型(MLLMs)的廣泛評估,研究者發現模型的瓶頸不僅限於簡單的資訊檢索,更體現在不同上下文長度下的持續推理、細粒度感知以及非語言全模態理解等能力的不足。例如,模型在處理長影片中的連續事件跟蹤、跨模態資訊整合以及非語言線索(如手勢、環境音)理解方面表現欠佳。VideoOdyssey的釋出為未來超長影片理解模型的研發提供了更具挑戰性的測試平臺,有望推動該領域的突破性進展。