2026-05-27 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LongAV-Compass：面向分鐘級視聽生成的統一評估框架

LongAV-Compass是一個系統化基準，用於評估分鐘級視聽生成任務，涵蓋文本到視聽、圖像到視聽和視頻到視聽三種模態。包含284個測試案例，集成多模態大模型輔助評估和感知指標，評估超過20個細粒度維度。對11個代表性模型的實驗揭示了當前系統在長時間生成中的侷限性。

來源arXiv Computer Vision作者: Tengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang

隨着人工智能生成內容技術的飛速發展，視聽生成領域正從短片段（如5-10秒）向分鐘級長內容邁進。然而，現有的評估基準和協議大多仍侷限於短片段設置，缺乏對長時生成任務中身份一致性、敍事連貫性及視音頻同步能力的系統評估。為了填補這一空白，來自多所研究機構的團隊（包括Tengfei Liu等20位作者）在arXiv上發表了題為《LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV》的論文，提出了一個名為LongAV-Compass的統一評估基準。

LongAV-Compass基準包含284個精心設計的測試案例，覆蓋三種條件輸入模態：文本到視聽（T2AV）、圖像到視聽（I2AV）和視頻到視聽（V2AV）。這些案例根據應用場景和生成複雜度進行了系統分類，確保評估的全面性和代表性。與以往僅支持單一模態的基準不同，LongAV-Compass首次實現了對多種條件模態的統一評估，為跨模態生成研究提供了重要工具。

在評估方法上，該基準採用了創新的雙重評估框架。一方面，利用多模態大模型（MLLM）進行輔助評估，捕捉生成內容的高級語義和敍事結構；另一方面，引入了一系列互補的感知和多模態指標，包括DINO-v2（用於物體級別的一致性）、ArcFace（用於人臉身份保持）、CLIP（用於文本-視覺語義對齊）和ImageBind（用於跨模態綁定）。整個評估體系涵蓋超過20個細粒度維度，例如片段內質量（如音頻清晰度、視頻幀穩定性）、跨段一致性（如場景過渡的自然度）、全局敍事連貫性（如故事線的邏輯性）、語義對齊（如文本描述與生成內容的匹配度）以及視聽同步（如音頻與畫面在時間上的精確對齊）。

為了驗證基準的有效性，研究團隊在11個代表性視聽生成模型上進行了實驗，並結合人工對齊驗證。實驗結果表明，儘管現有模型在短片段生成上已取得不錯的效果，但在分鐘級生成任務中普遍存在身份一致性丟失、敍事連貫性下降以及視聽不同步等問題。例如，在T2AV任務中，模型生成的視頻內容往往在數十秒後出現人物面部不連續或環境音與畫面脱節的現象；在I2AV任務中，靜態圖像驅動的動態生成容易引入冗餘或無關事件；而在V2AV任務中，模型對原視頻的語義保持和音頻適配能力也表現出明顯短板。這些發現揭示了當前技術向長時應用（如影視製作、虛擬現實、教育內容生成）拓展時面臨的重大挑戰。

LongAV-Compass的提出不僅為研究者提供了一個標準化的診斷測試平台，也為未來開發更穩健的分鐘級視聽生成模型指明瞭方向。該基準的開源和標準化有望推動該領域更快地從實驗室走向實際應用。論文的詳細信息可在arXiv上查閲，編號為2605.26244。