Molmo學會指向與操作
Ai2發佈了MolmoPoint和MolmoWeb,將Molmo家族從視覺理解擴展到視覺行動。MolmoPoint通過直接選擇輸入數據實現了更精準的指向,在多項基準測試中達到最優;MolmoWeb則是一個基於視覺的網頁代理,能夠通過截圖和鼠標鍵盤操作自主完成網頁任務。兩者均開源,旨在推動視覺智能的民主化。
近日,艾倫人工智能研究所(Ai2)宣佈推出MolmoPoint和MolmoWeb,這是Molmo系列視覺語言模型的新擴展,將模型的能力從單純的視覺理解拓展至視覺交互和操作。這一舉措延續了Ai2在開放AI領域的承諾,為研究人員和開發者提供了可檢查、可適配、可復現的模型工具。
MolmoPoint的核心理念是讓模型通過直接選擇輸入數據(例如圖像中的區域)來實現指向,而不是輸出抽象的文本座標。這種方法不僅更直觀,而且顯著提升了指向的準確性和魯棒性。實驗顯示,MolmoPoint在指向、屏幕元素識別和目標跟蹤等基準測試中均達到了開源模型的最佳水平,尤其是在高分辨率和複雜界面場景下表現突出。研究團隊表示,這一突破得益於他們將指向問題重新定義為跨模態任務,從而找到了更通用的解決方案。
MolmoPoint的出發點是解決傳統VLM中指向能力訓練的難題。Molmo研究負責人Chris Clark指出,訓練通用VLM進行精確指向比想象中困難得多,往往需要大量的訓練和數據混合調優。大多數模型通過生成文本座標來指向,這是一個間接且容易出錯的過程。MolmoPoint則採取了更直觀的方法:模型首先選擇一個粗略區域,然後精確定位到準確位置。這種思路源於將指向視為跨模態問題——對於圖像輸出XY座標可行,但對於文本或音頻輸入則無效。因此,直接指向輸入數據成為了自然而然的答案。結果令研究團隊驚喜:MolmoPoint在指向、屏幕元素識別和物體跟蹤基準測試中,在同等規模的開源模型中刷新了最先進水平,特別是在高分辨率和密集UI場景下精度和效率顯著提升。
另一個擴展是MolmoWeb,這是一套多模態網頁代理套件,能夠根據自然語言指令和網頁截圖自主完成瀏覽器操作,完全不需要底層HTML代碼或無障礙樹。MolmoWeb負責人Tanmay Gupta表示,該代理通過截圖感知、通過鼠標鍵盤操作,是Ai2構建視覺智能體的第一步。採用純視覺感知是刻意為之:截圖比底層代碼對網站變化更魯棒,且捕獲成本更低——一張圖片可以替代數千行網頁結構。MolmoWeb在主流網頁瀏覽基準測試中超越了同等規模的開源模型,其最強版本甚至擊敗了基於GPT-4o等更大閉源模型的智能體。
實現這一性能並不容易。團隊在2025年設定了初步目標:構建一個僅能在20個網站上工作的代理,每個網站有5-10個模板化任務。到2026年初,重點轉向擴展訓練數據和增強評估可靠性。Gupta強調,在智能體研究中,評估尤其困難且昂貴,因為評估的不是孤立的預測,而是可能因單點失敗而級聯的行動序列。團隊花費大量時間可視化軌跡並追蹤數據生成、訓練和評估之間的不一致。
Ai2堅持開源所有組件,包括模型檢查點、訓練數據(包含最大的公開人類網頁任務演示集)和統一評估工具,以便社區復現和改進。隨着MolmoBot、MolmoSpaces和WildDet3D的加入,Molmo生態系統現已涵蓋指向、網頁交互、3D感知和物理操作。每個組件均為開源,使大學實驗室或個人開發者無需依賴特定供應商即可進行定製。正如Gupta所言:“我們的北極星是數字助手,讓人們專注於只有人類能做的事情。”