2026-06-17站内改写1 分钟阅读更新: 2026-06-17

Pareto LoRA：通过帕累托最优梯度集成缓解统一多模态模型中的模态不平衡

统一多模态模型（UMMs）在指令微调时存在模态不平衡问题，语言梯度主导优化，降低图像生成质量。本文提出Pareto LoRA，一种帕累托最优梯度集成策略，通过调节梯度方向和强度来平衡文本与图像目标。在Emu2上的实验表明，该方法在保持文本性能的同时，将感知图像质量提升了高达44.9%。

来源arXiv Computer Vision作者: Xiwen Wei, Mark Nutter, Madhusudhanan Srinivasan, Radu Marculescu

统一多模态模型（Unified Multimodal Models, UMMs）通过单一自回归Transformer架构同时支持多模态理解与生成，近年来成为极具前景的研究方向。然而，在多模态指令微调过程中，这些模型往往表现出严重的模态不平衡现象：语言相关的梯度在优化中占据主导地位，导致图像生成质量显著下降。这一问题在使用参数高效微调方法（如LoRA）时尤为突出。

来自研究团队的论文《Pareto LoRA: Mitigating Modality Imbalance in Unified Multimodal Models via Pareto-Optimal Gradient Integration》对LoRA微调下的模态不平衡进行了系统分析。研究发现，与单模态基准相比，视觉模态的性能下降幅度远大于文本模态；此外，不同任务和网络层中模态特定梯度的幅度可能相差数个数量级。这些发现揭示了梯度方向与强度失衡是导致多模态生成能力受限的核心原因。

基于上述观察，作者将多模态指令微调重新表述为一个双目标优化问题，并提出了Pareto LoRA策略。该方法通过帕累托最优梯度集成，动态调整梯度方向与强度，在文本与图像目标之间实现最优平衡。具体而言，Pareto LoRA在每次迭代中寻找满足帕累托最优条件的梯度更新方向，确保两个目标的优化不会相互损害。

实验基于CoMM基准测试和Emu2模型展开。结果显示，与标准LoRA相比，Pareto LoRA在感知图像质量上取得了高达44.9%的提升，同时文本性能保持可比。这一成果为统一多模态模型的平衡训练提供了高效且实用的解决方案，有望推动多模态AI系统在实际应用中的进一步发展。