2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 15:56 UTC+8

COMPASS：在多模态统一模型中实现构图意图引导

COMPASS 是首个将构图意图控制融入单一系统的统一多模态框架，通过共享专家令牌 τ_c 实现构图感知与生成。它基于混合专家模型注入构图知识，并将推理出的意图蒸馏到 τ_c 中，在生成端将其作为全局条件信号引导去噪过程。配套的 Comp-11 数据集包含 11 类分类和推理增强标注，支持大规模训练和评估。实验表明，COMPASS 在类别级构图理解和生成一致性上显著优于现有方法。

来源arXiv AI作者: Ziqi Zhou, Weize Quan, Mining Tan, Zhihan Chen, Dandan Zheng, Jingdong Chen, Jun Zhou, Weiming Dong, Dong-Ming Yan

近年来，多模态模型在图像理解和生成方面取得了显著进展，但在处理构图（composition）这一高层次的视觉意图时仍显不足。构图决定了主体的位置和场景的组织方式，然而现有模型往往无法可靠地进行细粒度识别，也难以将这种意图转化为可控的生成。针对这一挑战，来自学术界的研究团队提出了 COMPASS 框架，旨在将构图意图控制融入统一的多模态系统。

COMPASS 的核心创新在于引入了一个共享专家令牌 τ_c，作为构图意图的中心锚点。在感知端，COMPASS 以最小侵入方式向混合专家（MoE）骨干网络注入构图专业知识，并将推理出的意图蒸馏到 τ_c 中。在生成端，COMPASS 复用了这个 τ_c 作为全局条件信号，引导去噪轨迹，从而将被动的构图分析转化为显式的布局控制。这种设计使得模型能够在单一框架内同时进行构图理解和生成。

为了支持系统化的构图学习和评估，团队还构建了 Comp-11 数据集。该数据集包含 11 个类别的分类体系，并提供了推理增强的标注，能够在较大规模上支持指令遵循式的构图学习。实验结果表明，COMPASS 在类别级的构图理解上取得了显著提升，并且在生成结果的构图一致性和提示忠实度方面均优于强基线方法。例如，在多个基准测试中，COMPASS 在分类精度和生成质量上都达到了新的高度。

COMPASS 的提出为多模态模型的构图能力提供了统一的解决方案，有望在图像编辑、布局生成等应用场景中发挥重要作用。研究团队已将论文和相关数据公开，供学术界进一步探索。未来工作可能包括将 COMPASS 扩展到视频构图等领域。