AI News HubLIVE
站內改寫2 分鐘閱讀

MolmoAct 2:為真實世界工作的機器人打造的開放基礎

MolmoAct 2 是一個完全開放的機器人基礎模型,提供更快、更強的3D動作推理能力,適用於真實世界的機器人任務,同時釋出了一個大型雙臂運算元據集,供研究人員研究、復現和構建。

來源Ai2 Blog

MolmoAct 2 是艾倫人工智慧研究所(Ai2)釋出的新一代機器人基礎模型,旨在推動機器人技術在現實世界中的可靠應用。該模型在MolmoAct的基礎上進行了全面升級,不僅效能大幅提升,而且完全開源,包括模型權重、資料集和自適應推理方法。

相比前代MolmoAct,MolmoAct 2的推理速度提升了37倍。在標準基準測試中,單個動作呼叫僅需180毫秒(基礎模型)或790毫秒(帶自適應深度推理),而MolmoAct需要6700毫秒。這一改進使得機器人能夠以接近即時的速度響應環境變化,從需要明顯停頓的動作轉變為流暢的操作。

模型的核心創新在於其架構重構。MolmoAct 2並非簡單地從Molmo 2初始化,而是採用了專門的具身推理變體Molmo 2-ER。該變體在超過300萬個具身推理樣本上訓練,涵蓋影像指向、物體檢測、抽象空間推理等多方面。在13個具身推理基準上,Molmo 2-ER的平均得分為63.8,超越了GPT-5、Gemini 2.5 Pro等系統。

MolmoAct 2將Molmo 2-ER與一個專用的動作專家模組配對,透過流匹配生成機器人動作,並透過KV快取橋與視覺語言模型連線。此外,團隊開發了完全開源的動作分詞器MolmoAct 2-FAST Tokenizer,解決了此前動作分詞器資料未公開的問題。

為了訓練MolmoAct 2,團隊構建了MolmoAct 2-Bimanual YAM資料集,包含720小時的雙臂機器人演示,涵蓋疊毛巾、掃描雜貨、充電等協調任務。這是目前最大的開源雙臂運算元據集,資料量是MolmoAct所用機器人資料的30倍。該模型在零樣本測試中表現出色,在Franka機械臂上(如將蘋果放到盤子上、將移液管放入托盤等)平均成功率達87.1%,遠超MolmoBot的48.4%和π0.5的45.2%。在第三方評測中,MolmoAct 2在8個雙臂任務中的7個上排名第一,平均得分為0.51,領先於OpenVLA-OFT的0.36和π0.5的0.32。

在設計上,MolmoAct 2能夠響應自然語言指令和使用視覺軌跡,讓機器人更容易在不重新訓練整個模型的情況下進行引導。團隊還發布了參考硬體設定,包括兩個YAM臂、頂置攝像頭和近距離攝像頭,為研究人員提供了簡單易用的起點。

目前,MolmoAct 2已在斯坦福醫學院的溼實驗室中試點,用於CRISPR基因編輯實驗中的常規操作步驟。斯坦福團隊發現,MolmoAct 2有潛力簡化溼實驗室操作,加速科學發現。儘管效能優異,模型仍存在侷限性,如當機械臂遮擋攝像頭視野或需要極精細操作時可能遇到困難。Ai2鼓勵社群在其基礎上進一步研究和改進。