AI News HubLIVE
站內改寫1 分鐘閱讀

我們到了嗎?探索多模態大語言模型在輔助AI應用中的能力

本研究評估了多模態大語言模型(MLLM)在輔助AI任務中的表現,包括貨幣識別、場景文本問答和多語言視覺內容閱讀。研究者構建了NetraLink系統,使用頭戴式GoPro採集真實世界第一人稱資料,並建立了相應基準測試。結果揭示了當前MLLM在視覺感知和語言互動方面的優勢與侷限。

來源arXiv Computer Vision作者: Shayon Dasgupta, Avijit Dasgupta, C. V. Jawahar

多模態大語言模型(MLLM)透過融合視覺編碼器與大語言模型,重新定義了視覺理解能力。這種統一架構在影像描述、視覺問答和多模態對話等任務上表現出色,尤其在零樣本和少樣本場景中。其通用能力和靈活介面使其成為現實世界視覺-語言應用的有力基礎。

輔助AI旨在幫助使用者透過自然語言與周圍環境互動。這類場景要求模型具備可靠的視覺識別、上下文推理和多語言理解能力——這些正是MLLM所宣稱的優勢。然而,它們在輔助環境中的實際效果尚未被充分理解。

為探究MLLM能否支援輔助AI,本研究評估了現有最先進模型在真實世界任務上的表現:識別日常物體如貨幣、基於場景文本回答問題,以及多語言視覺內容閱讀。為此,研究者開發了NetraLink系統,使用頭戴式GoPro採集真實世界的第一人稱視角資料,並構建了覆蓋這些輔助場景的基準資料集。實驗結果表明,當前MLLM在標準物體識別上表現良好,但在處理模糊、部分遮擋或低質量文本時準確率顯著下降。在多語言閱讀任務中,模型對高資源語言(如英語)的識別準確率較高,但對低資源語言(如印地語)的支援不足。此外,模型在場景文本問答中能夠提取部分關鍵資訊,但在複雜推理和上下文關聯方面仍有欠缺。研究者指出,這些侷限性主要源於訓練資料的偏差和視覺編碼器的解析度限制。該研究為未來輔助AI系統的設計提供了重要指導,包括需要針對低資源語言進行專門最佳化,以及提升模型對視覺噪聲的魯棒性。NetraLink基準資料集也已公開,供學術界進一步研究使用。