AI News HubLIVE
站內改寫1 分鐘閱讀

分解、比較與決策:多模態大語言模型是隱式的小樣本學習者

研究人員提出了DeCoDe技術,通過將小樣本圖像分類分解為成對比較,使現成的多模態大語言模型無需額外訓練即可成為強大的小樣本分類器。該方法在十二個數據集上顯著優於現有方法,代碼已開源。

來源arXiv Computer Vision作者: Yunhan Wang, Eshika Khandelwal, Edson Araujo, Walid Bousselham, Nina Shvetsova, Hilde Kuehne

多模態大語言模型(MLLMs)在圖像分析方面展現了卓越的能力,但如何將這些能力遷移到小樣本圖像分類中仍是一個挑戰。近日,一篇由Yunhan Wang等人提交至arXiv的論文提出了DeCoDe技術,這一簡單而有效的方法無需任何額外訓練,即可將現成的MLLMs轉化為強大的小樣本分類器。

DeCoDe的核心思想是將小樣本分類任務分解為一組成對圖像比較。對於每個查詢圖像和候選類的支持圖像,MLLM被提示判斷兩者是否屬於同一類別。正面回答對應的logit值被用作相似度分數,從而將查詢圖像分配給最可能的類別。實驗表明,即使僅使用這一基本方法,也能取得良好效果。進一步地,向模型提供額外的高層信息(如數據領域)可以顯著提升性能。

研究團隊在十二個數據集(包括六個已有基準和六個新構建的小樣本基準)上進行了廣泛評估,涵蓋了多個領域。結果表明,這種簡單的分解技術能夠將現成的MLLMs變成強大的小樣本學習者,在標準領域和新興領域均大幅超越了當前最先進的小樣本方法。論文代碼已在GitHub上公開,為後續研究提供了便利。

DeCoDe的提出為小樣本圖像分類領域帶來了新的思路。它利用MLLMs固有的語義理解能力,通過巧妙的任務分解避免了傳統方法中繁瑣的微調過程。研究者指出,該方法不僅適用於標準視覺任務,還能輕鬆擴展到醫學影像、衞星圖像等專業領域,展現出強大的泛化能力。未來,他們計劃探索更復雜的比較策略和跨模態應用,進一步提升DeCoDe的適用性。