PerceptionDLM:基于多模态扩散语言模型的并行区域感知
本文提出PerceptionDLM,一种优化用于高效并行区域感知的多模态扩散语言模型。该模型利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码实现多掩码区域的同时感知,显著提升推理效率。同时构建了ParaDLC-Bench基准以评估并行区域描述能力。实验表明,该模型在保持区域描述竞争力的同时,大幅提升了多区域感知的速度。
多模态大语言模型(MLLM)在视觉理解任务中取得了显著进展,能够对图像进行精细描述。然而,现有的大多数MLLM依赖于自回归生成方式,这意味着它们按顺序逐个生成单词。当需要描述图像中的多个特定区域时,这种顺序处理方式效率低下,因为每个区域都必须单独处理,导致推理时间随区域数量线性增长。为了克服这一瓶颈,来自研究团队的最新论文提出了PerceptionDLM——一种专门为高效并行区域感知设计的多模态扩散语言模型。
PerceptionDLM基于PerceptionDLM-Base构建,后者是一个强大的开源扩散多模态大语言模型,在同类模型中达到了最佳性能。该架构充分利用了扩散语言模型(DLM)的内在并行解码能力。与自回归模型不同,扩散语言模型通过迭代去噪过程从随机噪声中生成文本,能够同时处理多个输出位置。PerceptionDLM通过引入高效提示(efficient prompting)和结构化注意力掩码(structured attention masking),使得模型能够同时感知多个掩码区域,并在序列级别和令牌级别并行生成这些区域的描述。具体来说,高效提示将多个区域的掩码信息压缩为紧凑的表示,而结构化注意力掩码则确保模型在生成每个区域描述时只关注与该区域相关的图像部分。这种设计从根本上改变了传统的逐区域处理方式,实现了真正的并行推理。
为了系统评估扩散语言模型在视觉感知中的并行能力,研究团队构建了一个新的基准测试——并行详细定位描述基准(ParaDLC-Bench)。该基准通过扩展现有的DLC-Bench,为每张图像提供多个区域掩码,从而能够同时评估描述质量和推理效率。与传统的逐区域评估方法不同,ParaDLC-Bench要求模型一次性生成所有区域的描述,并测量端到端的延迟。
实验结果表明,PerceptionDLM在区域描述任务上保持了与最先进自回归模型相当的竞争力,同时在多区域感知任务中实现了显著的加速。例如,在处理四个区域时,PerceptionDLM的推理速度比逐区域处理的自回归模型快数倍,而描述质量几乎没有下降。研究人员强调,这是首次利用扩散语言模型实现并行区域描述和感知的工作。为了促进该领域的研究,相关代码、模型和数据集已全部开源发布。这一成果为开发更高效、更实时的视觉感知系统开辟了新的道路。