2026-05-05 16:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

MolmoAct 2：為真實世界工作的機器人打造的開放基礎

MolmoAct 2 是一個完全開放的機器人基礎模型，提供更快、更強的3D動作推理能力，適用於真實世界的機器人任務，同時釋出了一個大型雙臂運算元據集，供研究人員研究、復現和構建。

MolmoAct 2 是艾倫人工智慧研究所（Ai2）釋出的新一代機器人基礎模型，旨在推動機器人技術在現實世界中的可靠應用。該模型在MolmoAct的基礎上進行了全面升級，不僅效能大幅提升，而且完全開源，包括模型權重、資料集和自適應推理方法。

相比前代MolmoAct，MolmoAct 2的推理速度提升了37倍。在標準基準測試中，單個動作呼叫僅需180毫秒（基礎模型）或790毫秒（帶自適應深度推理），而MolmoAct需要6700毫秒。這一改進使得機器人能夠以接近即時的速度響應環境變化，從需要明顯停頓的動作轉變為流暢的操作。

模型的核心創新在於其架構重構。MolmoAct 2並非簡單地從Molmo 2初始化，而是採用了專門的具身推理變體Molmo 2-ER。該變體在超過300萬個具身推理樣本上訓練，涵蓋影像指向、物體檢測、抽象空間推理等多方面。在13個具身推理基準上，Molmo 2-ER的平均得分為63.8，超越了GPT-5、Gemini 2.5 Pro等系統。

MolmoAct 2將Molmo 2-ER與一個專用的動作專家模組配對，透過流匹配生成機器人動作，並透過KV快取橋與視覺語言模型連線。此外，團隊開發了完全開源的動作分詞器MolmoAct 2-FAST Tokenizer，解決了此前動作分詞器資料未公開的問題。

為了訓練MolmoAct 2，團隊構建了MolmoAct 2-Bimanual YAM資料集，包含720小時的雙臂機器人演示，涵蓋疊毛巾、掃描雜貨、充電等協調任務。這是目前最大的開源雙臂運算元據集，資料量是MolmoAct所用機器人資料的30倍。該模型在零樣本測試中表現出色，在Franka機械臂上（如將蘋果放到盤子上、將移液管放入托盤等）平均成功率達87.1%，遠超MolmoBot的48.4%和π0.5的45.2%。在第三方評測中，MolmoAct 2在8個雙臂任務中的7個上排名第一，平均得分為0.51，領先於OpenVLA-OFT的0.36和π0.5的0.32。

在設計上，MolmoAct 2能夠響應自然語言指令和使用視覺軌跡，讓機器人更容易在不重新訓練整個模型的情況下進行引導。團隊還發布了參考硬體設定，包括兩個YAM臂、頂置攝像頭和近距離攝像頭，為研究人員提供了簡單易用的起點。

目前，MolmoAct 2已在斯坦福醫學院的溼實驗室中試點，用於CRISPR基因編輯實驗中的常規操作步驟。斯坦福團隊發現，MolmoAct 2有潛力簡化溼實驗室操作，加速科學發現。儘管效能優異，模型仍存在侷限性，如當機械臂遮擋攝像頭視野或需要極精細操作時可能遇到困難。Ai2鼓勵社群在其基礎上進一步研究和改進。