分解、比较与决策:多模态大语言模型是隐式的小样本学习者
研究人员提出了DeCoDe技术,通过将小样本图像分类分解为成对比较,使现成的多模态大语言模型无需额外训练即可成为强大的小样本分类器。该方法在十二个数据集上显著优于现有方法,代码已开源。
来源arXiv Computer Vision作者: Yunhan Wang, Eshika Khandelwal, Edson Araujo, Walid Bousselham, Nina Shvetsova, Hilde Kuehne
多模态大语言模型(MLLMs)在图像分析方面展现了卓越的能力,但如何将这些能力迁移到小样本图像分类中仍是一个挑战。近日,一篇由Yunhan Wang等人提交至arXiv的论文提出了DeCoDe技术,这一简单而有效的方法无需任何额外训练,即可将现成的MLLMs转化为强大的小样本分类器。
DeCoDe的核心思想是将小样本分类任务分解为一组成对图像比较。对于每个查询图像和候选类的支持图像,MLLM被提示判断两者是否属于同一类别。正面回答对应的logit值被用作相似度分数,从而将查询图像分配给最可能的类别。实验表明,即使仅使用这一基本方法,也能取得良好效果。进一步地,向模型提供额外的高层信息(如数据领域)可以显著提升性能。
研究团队在十二个数据集(包括六个已有基准和六个新构建的小样本基准)上进行了广泛评估,涵盖了多个领域。结果表明,这种简单的分解技术能够将现成的MLLMs变成强大的小样本学习者,在标准领域和新兴领域均大幅超越了当前最先进的小样本方法。论文代码已在GitHub上公开,为后续研究提供了便利。
DeCoDe的提出为小样本图像分类领域带来了新的思路。它利用MLLMs固有的语义理解能力,通过巧妙的任务分解避免了传统方法中繁琐的微调过程。研究者指出,该方法不仅适用于标准视觉任务,还能轻松扩展到医学影像、卫星图像等专业领域,展现出强大的泛化能力。未来,他们计划探索更复杂的比较策略和跨模态应用,进一步提升DeCoDe的适用性。