2026-07-03 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-03 16:19 UTC+8

MIBE：面向个性化图像生成的多主体交互基准与评估器

多主体个性化图像生成要求模型根据提示精确渲染所有参考身份及其交互，但现有模型常遗漏主体、改变外观或误分配交互。现有指标主要针对单主体保真度，在多主体场景下排序分离性和人类对齐能力严重下降。为此，研究者提出MIBE统一框架，包含多主体交互基准（MIB）和多主体交互评估器（MIE）。MIB通过解耦数据策略系统覆盖多样关系类型和场景复杂度，包含60K对VLM标记的银标集和4K对双盲人工评估金标集。MIE是一个轻量级、参考条件的评估器，仅在银标集上训练，采用双头排序与诊断目标，在金标集上实现了0.922的整体成对准确率，证明诊断监督能保持排序分离性和人类对齐。

来源arXiv Computer Vision作者: Zhihan Chen, Yuhuan Zhao, Yijie Zhu, Xinyu Yao, Mengcong Ren, Suwen Wang, Qiuyang Yin, Yuchen Sun, Qin Wang, Lu Xin

多主体个性化图像生成是一项具有挑战性的任务，它要求模型根据指导提示精确渲染所有指定的参考身份及其交互关系。然而，当前最先进的模型在这一过程中仍频繁出现问题，例如遗漏某些主体、未能保持参考外观，或者错误地分配交互关系。更为关键的是，现有评估指标主要针对单主体保真度设计，无法可靠地捕获这些错误。随着主体数量的增加，这些指标在排序分离性和人类偏好对齐方面的表现严重恶化。

为了填补这一空白，研究者提出了多主体交互基准与评估器（MIBE），这是一个统一的框架，包含两个核心组件：多主体交互基准（MIB）和多主体交互评估器（MIE）。MIB通过一种解耦的数据策略系统地覆盖了多种关系类型和场景复杂度。该基准由一个60K对VLM（视觉语言模型）标记的银标集（Silver Set）和一个4K对双盲人工评估金标集（Gold Set）组成。银标集用于可扩展的指标训练，其跨VLM偏好一致性达到95.1%，确保了标签的质量和一致性。金标集则覆盖了多种最先进的生成器，用于评估指标的性能，其双盲设计避免了评估偏差。

为了展示这一基准的实用性，论文提出了MIE，一个轻量级的、参考条件的评估器。MIE仅在银标集上训练，采用双头排序与诊断目标，即同时学习排序偏好和提供细粒度的诊断信号（如是否存在主体遗漏、外观失真或交互错误）。在金标集上的实验表明，MIE展现出强大的跨生成器泛化能力，整体成对准确率达到0.922，其中在见过的生成器上为0.982，在未见过的生成器上为0.884。相比之下，包括CLIP和DINO变体在内的广泛基线指标表现较差，尤其是在未见过的生成器上准确率大幅下降。MIE的成功表明，诊断监督能够在传统评估器失效的情况下保持排序分离性和人类偏好对齐，为多主体图像生成的评估提供了新的解决方案。该研究不仅推动了图像生成模型的评估方法，也为后续研究提供了高质量的数据集和基准。