AI News HubLIVE
站内改写1 分钟阅读

COMPASS:在多模态统一模型中实现构图意图引导

COMPASS 是首个将构图意图控制融入单一系统的统一多模态框架,通过共享专家令牌 τ_c 实现构图感知与生成。它基于混合专家模型注入构图知识,并将推理出的意图蒸馏到 τ_c 中,在生成端将其作为全局条件信号引导去噪过程。配套的 Comp-11 数据集包含 11 类分类和推理增强标注,支持大规模训练和评估。实验表明,COMPASS 在类别级构图理解和生成一致性上显著优于现有方法。

来源arXiv AI作者: Ziqi Zhou, Weize Quan, Mining Tan, Zhihan Chen, Dandan Zheng, Jingdong Chen, Jun Zhou, Weiming Dong, Dong-Ming Yan

近年来,多模态模型在图像理解和生成方面取得了显著进展,但在处理构图(composition)这一高层次的视觉意图时仍显不足。构图决定了主体的位置和场景的组织方式,然而现有模型往往无法可靠地进行细粒度识别,也难以将这种意图转化为可控的生成。针对这一挑战,来自学术界的研究团队提出了 COMPASS 框架,旨在将构图意图控制融入统一的多模态系统。

COMPASS 的核心创新在于引入了一个共享专家令牌 τ_c,作为构图意图的中心锚点。在感知端,COMPASS 以最小侵入方式向混合专家(MoE)骨干网络注入构图专业知识,并将推理出的意图蒸馏到 τ_c 中。在生成端,COMPASS 复用了这个 τ_c 作为全局条件信号,引导去噪轨迹,从而将被动的构图分析转化为显式的布局控制。这种设计使得模型能够在单一框架内同时进行构图理解和生成。

为了支持系统化的构图学习和评估,团队还构建了 Comp-11 数据集。该数据集包含 11 个类别的分类体系,并提供了推理增强的标注,能够在较大规模上支持指令遵循式的构图学习。实验结果表明,COMPASS 在类别级的构图理解上取得了显著提升,并且在生成结果的构图一致性和提示忠实度方面均优于强基线方法。例如,在多个基准测试中,COMPASS 在分类精度和生成质量上都达到了新的高度。

COMPASS 的提出为多模态模型的构图能力提供了统一的解决方案,有望在图像编辑、布局生成等应用场景中发挥重要作用。研究团队已将论文和相关数据公开,供学术界进一步探索。未来工作可能包括将 COMPASS 扩展到视频构图等领域。