2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 16:19 UTC+8

MIBE：面向個性化影像生成的多主體互動基準與評估器

多主體個性化影像生成要求模型根據提示精確渲染所有參考身份及其互動，但現有模型常遺漏主體、改變外觀或誤分配互動。現有指標主要針對單主體保真度，在多主體場景下排序分離性和人類對齊能力嚴重下降。為此，研究者提出MIBE統一框架，包含多主體互動基準（MIB）和多主體互動評估器（MIE）。MIB透過解耦資料策略系統覆蓋多樣關係型別和場景複雜度，包含60K對VLM標記的銀標集和4K對雙盲人工評估金標集。MIE是一個輕量級、參考條件的評估器，僅在銀標集上訓練，採用雙頭排序與診斷目標，在金標集上實現了0.922的整體成對準確率，證明診斷監督能保持排序分離性和人類對齊。

來源arXiv Computer Vision作者: Zhihan Chen, Yuhuan Zhao, Yijie Zhu, Xinyu Yao, Mengcong Ren, Suwen Wang, Qiuyang Yin, Yuchen Sun, Qin Wang, Lu Xin

多主體個性化影像生成是一項具有挑戰性的任務，它要求模型根據指導提示精確渲染所有指定的參考身份及其互動關係。然而，當前最先進的模型在這一過程中仍頻繁出現問題，例如遺漏某些主體、未能保持參考外觀，或者錯誤地分配互動關係。更為關鍵的是，現有評估指標主要針對單主體保真度設計，無法可靠地捕獲這些錯誤。隨著主體數量的增加，這些指標在排序分離性和人類偏好對齊方面的表現嚴重惡化。

為了填補這一空白，研究者提出了多主體互動基準與評估器（MIBE），這是一個統一的框架，包含兩個核心元件：多主體互動基準（MIB）和多主體互動評估器（MIE）。MIB透過一種解耦的資料策略系統地覆蓋了多種關係型別和場景複雜度。該基準由一個60K對VLM（視覺語言模型）標記的銀標集（Silver Set）和一個4K對雙盲人工評估金標集（Gold Set）組成。銀標集用於可擴充套件的指標訓練，其跨VLM偏好一致性達到95.1%，確保了標籤的質量和一致性。金標集則覆蓋了多種最先進的生成器，用於評估指標的效能，其雙盲設計避免了評估偏差。

為了展示這一基準的實用性，論文提出了MIE，一個輕量級的、參考條件的評估器。MIE僅在銀標集上訓練，採用雙頭排序與診斷目標，即同時學習排序偏好和提供細粒度的診斷訊號（如是否存在主體遺漏、外觀失真或互動錯誤）。在金標集上的實驗表明，MIE展現出強大的跨生成器泛化能力，整體成對準確率達到0.922，其中在見過的生成器上為0.982，在未見過的生成器上為0.884。相比之下，包括CLIP和DINO變體在內的廣泛基線指標表現較差，尤其是在未見過的生成器上準確率大幅下降。MIE的成功表明，診斷監督能夠在傳統評估器失效的情況下保持排序分離性和人類偏好對齊，為多主體影像生成的評估提供了新的解決方案。該研究不僅推動了影像生成模型的評估方法，也為後續研究提供了高質量的資料集和基準。