AI News HubLIVE
サイト内リライト2 分で読了

分解、比較、そして決定:マルチモーダルLLMは暗黙の少数ショット学習者である

研究チームはDeCoDe技術を提案。少数ショット画像分類をペア比較に分解することで、既製のマルチモーダル大規模言語モデルを追加学習なしで強力な少数ショット分類器に変える。12のデータセットで最先端手法を凌駕し、コードは公開中。

ソースarXiv Computer Vision著者: Yunhan Wang, Eshika Khandelwal, Edson Araujo, Walid Bousselham, Nina Shvetsova, Hilde Kuehne

マルチモーダル大規模言語モデル(MLLM)は画像解析において顕著な能力を示していますが、これらの能力を少数ショット画像分類に転用することは依然として困難です。このギャップを埋めるため、Yunhan Wang氏らによるarXivプレプリントはDeCoDe技術を提案しています。このシンプルかつ効果的な手法は、追加学習を必要とせずに既製のMLLMを強力な少数ショット分類器として機能させます。

DeCoDeの核心は、少数ショット分類を一連の画像ペア比較として捉え、タスクを二値決定に分解することです。クエリ画像と候補クラスのサポート画像が与えられると、MLLMは両者が同じクラスを示すかどうかを判断するよう促されます。肯定応答に対応するロジットは類似度スコアとして使用され、クエリ画像を最も可能性の高いクラスに割り当てます。この基本手法だけでも良好な結果が得られますが、データドメインなどの高レベル情報をモデルに提供することで、さらに性能が向上することが示されています。

評価では、確立された6つと新たに構築された6つの少数ショットベンチマークを含む12のデータセットで多様な推論バリアントが分析されました。結果は、提案された単純な分解技術が既製のMLLMを強力な少数ショット学習者に変え、標準および新しいドメインの両方で現在の最先端手法を大幅に上回ることを示しています。コードはGitHubで公開されており、再現性を高めています。

DeCoDeの登場は、少数ショット画像分類の分野に新たな可能性をもたらします。MLLMが本来持つ意味理解能力を活用し、タスクを分解することで、従来の微調整プロセスを回避できます。研究者らは、この手法が標準的な視覚タスクに留まらず、医療画像や衛星画像などの専門分野にも容易に拡張できると述べています。将来的には、より高度な比較戦略やクロスモーダル応用の探求が計画されており、DeCoDeの適用範囲はさらに広がると期待されます。