Yuvion VL:一種用於對抗性內容和AI安全的多模態基礎模型
Yuvion VL是一系列專為內容和AI安全設計的多模態大語言模型,通過將安全性視為對抗性和多模態問題,構建了圍繞對抗魯棒性的完整管道。其數據構建採用自動化對抗感知合成與多階段質量控制;訓練採用三階段流程,包括風險概念跨模態對齊的繼續預訓練、生產級安全任務的指令後訓練以及增強可解釋性的推理後訓練。創新性地引入困惑-對比微調框架,通過挖掘模型特定困惑並構建多圖像對比組,強制區分細粒度視覺語義元素。同時推出YVRE基準集,包含多樣化的安全評估。實驗表明Yuvion VL-32B在安全性能上領先於同類開源和閉源模型,同時保持通用能力。
Yuvion VL是由Shikai Qiu等54位研究者提出的多模態基礎模型系列,專注於內容安全和AI安全領域。通用模型在識別和理解現實世界中的多模態風險方面常顯不足,這主要源於內容與AI安全固有的多模態對抗性質。Yuvion VL通過將安全視為本質上的對抗性和多模態問題,並圍繞對抗魯棒性設計完整管道,從而填補了這一空白。
在數據構建方面,團隊開發了自動化管道,集成對抗感知數據合成與多階段質量控制,生成了大規模、高質量的多模態樣本,並增強了領域知識和推理註釋。數據構建管道包括對抗性樣本生成、質量過濾和領域專家註釋,確保訓練數據的多樣性和可靠性。
訓練採用三階段流程:首先是繼續預訓練,實現風險概念的跨模態對齊,使模型能夠將文本風險知識遷移到視覺模態;其次是指令後訓練,針對生產級安全任務,如有害內容檢測、仇恨言論識別等;最後是推理後訓練,提升複雜任務中的可解釋性和性能,使模型能夠提供詳細的推理過程。此外,團隊引入了困惑-對比微調(Confuse-then-Contrast Fine-Tuning),一種對比學習框架,通過挖掘模型特定困惑並構建多圖像對比組,強制模型精確區分細粒度視覺語義元素,從而在對抗性安全任務中區分視覺相似但安全含義不同的案例。
為支持嚴格評估,研究者推出了Yuvion VL風險評估基準(YVRE),涵蓋多種公開和內部評估,重點關注內容和AI安全、對抗魯棒性及實際能力需求。YVRE包括標準安全基準和定製化的對抗性測試集,能夠全面評估模型在真實世界場景下的表現。
實驗結果顯示,Yuvion VL-32B模型在安全性能上達到行業領先水平,超越了同等規模的開源模型(如LLaVA-1.6、Qwen-VL等)以及最佳的閉源商用模型(如GPT-4V、Claude-3等),同時保持了可比的通用能力。該研究已在arXiv發佈(arXiv:2606.25034),相關代碼和模型預計將開源。