Yuvion VL:一种用于对抗性内容和AI安全的多模态基础模型
Yuvion VL是一系列专为内容和AI安全设计的多模态大语言模型,通过将安全性视为对抗性和多模态问题,构建了围绕对抗鲁棒性的完整管道。其数据构建采用自动化对抗感知合成与多阶段质量控制;训练采用三阶段流程,包括风险概念跨模态对齐的继续预训练、生产级安全任务的指令后训练以及增强可解释性的推理后训练。创新性地引入困惑-对比微调框架,通过挖掘模型特定困惑并构建多图像对比组,强制区分细粒度视觉语义元素。同时推出YVRE基准集,包含多样化的安全评估。实验表明Yuvion VL-32B在安全性能上领先于同类开源和闭源模型,同时保持通用能力。
Yuvion VL是由Shikai Qiu等54位研究者提出的多模态基础模型系列,专注于内容安全和AI安全领域。通用模型在识别和理解现实世界中的多模态风险方面常显不足,这主要源于内容与AI安全固有的多模态对抗性质。Yuvion VL通过将安全视为本质上的对抗性和多模态问题,并围绕对抗鲁棒性设计完整管道,从而填补了这一空白。
在数据构建方面,团队开发了自动化管道,集成对抗感知数据合成与多阶段质量控制,生成了大规模、高质量的多模态样本,并增强了领域知识和推理注释。数据构建管道包括对抗性样本生成、质量过滤和领域专家注释,确保训练数据的多样性和可靠性。
训练采用三阶段流程:首先是继续预训练,实现风险概念的跨模态对齐,使模型能够将文本风险知识迁移到视觉模态;其次是指令后训练,针对生产级安全任务,如有害内容检测、仇恨言论识别等;最后是推理后训练,提升复杂任务中的可解释性和性能,使模型能够提供详细的推理过程。此外,团队引入了困惑-对比微调(Confuse-then-Contrast Fine-Tuning),一种对比学习框架,通过挖掘模型特定困惑并构建多图像对比组,强制模型精确区分细粒度视觉语义元素,从而在对抗性安全任务中区分视觉相似但安全含义不同的案例。
为支持严格评估,研究者推出了Yuvion VL风险评估基准(YVRE),涵盖多种公开和内部评估,重点关注内容和AI安全、对抗鲁棒性及实际能力需求。YVRE包括标准安全基准和定制化的对抗性测试集,能够全面评估模型在真实世界场景下的表现。
实验结果显示,Yuvion VL-32B模型在安全性能上达到行业领先水平,超越了同等规模的开源模型(如LLaVA-1.6、Qwen-VL等)以及最佳的闭源商用模型(如GPT-4V、Claude-3等),同时保持了可比的通用能力。该研究已在arXiv发布(arXiv:2606.25034),相关代码和模型预计将开源。