AI News HubLIVE
站内改写2 分钟阅读

MCBench:面向全模态大语言模型的多情境安全评估基准

现有的多模态安全基准仅关注视觉输入,无法评估处理视觉、音频和文本的全模态大语言模型(Omni LLMs)。本文提出MCBench,包含1196个场景,涵盖四个安全类别,每个不安全场景配有一个最小差异的安全版本来评估模型敏感性。评估表明,Omni LLMs在细微或非物理风险上表现困难,但当有显著视觉或听觉线索时表现较好。推理轨迹分析显示,模型虽能提取模态特定信息,但常无法有效整合这些线索进行安全判断。研究发现当前Omni LLMs在安全关键场景中缺乏稳健的跨模态推理,强调了改进架构和训练策略的必要性。

来源arXiv Computational Linguistics作者: Manh Luong, Tamas Abraham, Junae Kim, Amar Kaur, Rollin Omari, Gholamreza Haffari, Trang Vu, Lizhen Qu, Dinh Phung

随着全模态大语言模型(Omni LLMs)的快速发展,模型能够同时处理视觉、音频和文本等多种模态的信息。然而,现有的多模态安全评估基准几乎全部局限于单一模态(主要是视觉),无法全面评估这些模型在复杂多模态场景下的安全性。为了填补这一空白,来自多所机构的研究人员提出了MCBench(多情境安全评估基准),旨在系统性地测试Omni LLMs在多模态环境中的安全性能。

MCBench的核心设计基于1196个精心构建的场景,覆盖了四大安全类别:物理安全、信息泄露、仇恨言论和不当内容。每个场景都被设计为需要模型整合多种模态信息才能做出准确判断。更为关键的是,每个不安全场景都配备了一个仅存在微小差异的安全版本,例如将危险物品替换为无害物品,或改变音频中的语气。这种成对设计使得研究人员能够精确衡量模型对细微安全线索的敏感度,从而区分模型是否真正理解安全界限。

研究团队对当前多个最先进的Omni LLMs进行了全面评估,结果揭示了显著的挑战。在涉及细微或非物理风险(例如暗示性的言论或微妙的威胁)时,模型的表现普遍较差,错误率较高。然而,当存在明显的视觉或听觉线索(例如清晰的武器图像或惊恐的语调)时,模型的判断准确性明显提升。这表明模型在一定程度上依赖于显著模态信号,但对隐藏或间接的风险缺乏鲁棒性。

为了进一步探究原因,研究人员分析了模型的推理轨迹。他们发现,尽管Omni LLMs能够从每个模态中提取相关的特征信息(例如从图像中识别物体、从音频中捕捉情绪),但在将这些跨模态线索整合起来形成全局安全判断时,却常常失败。例如,模型可能正确识别出图像中的刀具,但忽视音频中威胁性的语言,从而做出错误的安全决策。这种跨模态整合的缺陷是导致模型在复杂安全场景中表现不佳的核心原因。

这项研究的发现对于全模态AI的安全部署具有重要意义。它表明,当前最先进的Omni LLMs在安全关键任务中缺乏稳健的跨模态推理能力,仅靠单模态信息或浅层融合不足以应对现实世界中的复杂风险。研究人员强调,未来的工作应致力于改进模型架构,设计更有效的多模态融合机制,并开发能够强制模型进行跨模态推理的训练策略。此外,MCBench本身也提供了一个可扩展的评估平台,能够覆盖更多安全类别和场景,推动该领域的持续进步。