2026-06-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 16:02 UTC+8

我們到了嗎？探索多模態大語言模型在輔助AI應用中的能力

本研究評估了多模態大語言模型（MLLM）在輔助AI任務中的表現，包括貨幣識別、場景文本問答和多語言視覺內容閱讀。研究者構建了NetraLink系統，使用頭戴式GoPro採集真實世界第一人稱資料，並建立了相應基準測試。結果揭示了當前MLLM在視覺感知和語言互動方面的優勢與侷限。

來源arXiv Computer Vision作者: Shayon Dasgupta, Avijit Dasgupta, C. V. Jawahar

多模態大語言模型（MLLM）透過融合視覺編碼器與大語言模型，重新定義了視覺理解能力。這種統一架構在影像描述、視覺問答和多模態對話等任務上表現出色，尤其在零樣本和少樣本場景中。其通用能力和靈活介面使其成為現實世界視覺-語言應用的有力基礎。

輔助AI旨在幫助使用者透過自然語言與周圍環境互動。這類場景要求模型具備可靠的視覺識別、上下文推理和多語言理解能力——這些正是MLLM所宣稱的優勢。然而，它們在輔助環境中的實際效果尚未被充分理解。

為探究MLLM能否支援輔助AI，本研究評估了現有最先進模型在真實世界任務上的表現：識別日常物體如貨幣、基於場景文本回答問題，以及多語言視覺內容閱讀。為此，研究者開發了NetraLink系統，使用頭戴式GoPro採集真實世界的第一人稱視角資料，並構建了覆蓋這些輔助場景的基準資料集。實驗結果表明，當前MLLM在標準物體識別上表現良好，但在處理模糊、部分遮擋或低質量文本時準確率顯著下降。在多語言閱讀任務中，模型對高資源語言（如英語）的識別準確率較高，但對低資源語言（如印地語）的支援不足。此外，模型在場景文本問答中能夠提取部分關鍵資訊，但在複雜推理和上下文關聯方面仍有欠缺。研究者指出，這些侷限性主要源於訓練資料的偏差和視覺編碼器的解析度限制。該研究為未來輔助AI系統的設計提供了重要指導，包括需要針對低資源語言進行專門最佳化，以及提升模型對視覺噪聲的魯棒性。NetraLink基準資料集也已公開，供學術界進一步研究使用。