MCBench:面向全模態大語言模型的多情境安全評估基準
現有的多模態安全基準僅關注視覺輸入,無法評估處理視覺、音頻和文本的全模態大語言模型(Omni LLMs)。本文提出MCBench,包含1196個場景,涵蓋四個安全類別,每個不安全場景配有一個最小差異的安全版本來評估模型敏感性。評估表明,Omni LLMs在細微或非物理風險上表現困難,但當有顯著視覺或聽覺線索時表現較好。推理軌跡分析顯示,模型雖能提取模態特定信息,但常無法有效整合這些線索進行安全判斷。研究發現當前Omni LLMs在安全關鍵場景中缺乏穩健的跨模態推理,強調了改進架構和訓練策略的必要性。
隨着全模態大語言模型(Omni LLMs)的快速發展,模型能夠同時處理視覺、音頻和文本等多種模態的信息。然而,現有的多模態安全評估基準幾乎全部侷限於單一模態(主要是視覺),無法全面評估這些模型在複雜多模態場景下的安全性。為了填補這一空白,來自多所機構的研究人員提出了MCBench(多情境安全評估基準),旨在系統性地測試Omni LLMs在多模態環境中的安全性能。
MCBench的核心設計基於1196個精心構建的場景,覆蓋了四大安全類別:物理安全、信息泄露、仇恨言論和不當內容。每個場景都被設計為需要模型整合多種模態信息才能做出準確判斷。更為關鍵的是,每個不安全場景都配備了一個僅存在微小差異的安全版本,例如將危險物品替換為無害物品,或改變音頻中的語氣。這種成對設計使得研究人員能夠精確衡量模型對細微安全線索的敏感度,從而區分模型是否真正理解安全界限。
研究團隊對當前多個最先進的Omni LLMs進行了全面評估,結果揭示了顯著的挑戰。在涉及細微或非物理風險(例如暗示性的言論或微妙的威脅)時,模型的表現普遍較差,錯誤率較高。然而,當存在明顯的視覺或聽覺線索(例如清晰的武器圖像或驚恐的語調)時,模型的判斷準確性明顯提升。這表明模型在一定程度上依賴於顯著模態信號,但對隱藏或間接的風險缺乏魯棒性。
為了進一步探究原因,研究人員分析了模型的推理軌跡。他們發現,儘管Omni LLMs能夠從每個模態中提取相關的特徵信息(例如從圖像中識別物體、從音頻中捕捉情緒),但在將這些跨模態線索整合起來形成全局安全判斷時,卻常常失敗。例如,模型可能正確識別出圖像中的刀具,但忽視音頻中威脅性的語言,從而做出錯誤的安全決策。這種跨模態整合的缺陷是導致模型在複雜安全場景中表現不佳的核心原因。
這項研究的發現對於全模態AI的安全部署具有重要意義。它表明,當前最先進的Omni LLMs在安全關鍵任務中缺乏穩健的跨模態推理能力,僅靠單模態信息或淺層融合不足以應對現實世界中的複雜風險。研究人員強調,未來的工作應致力於改進模型架構,設計更有效的多模態融合機制,並開發能夠強制模型進行跨模態推理的訓練策略。此外,MCBench本身也提供了一個可擴展的評估平台,能夠覆蓋更多安全類別和場景,推動該領域的持續進步。