MolmoAct 2:为真实世界工作的机器人打造的开放基础
MolmoAct 2 是一个完全开放的机器人基础模型,提供更快、更强的3D动作推理能力,适用于真实世界的机器人任务,同时发布了一个大型双臂操作数据集,供研究人员研究、复现和构建。
MolmoAct 2 是艾伦人工智能研究所(Ai2)发布的新一代机器人基础模型,旨在推动机器人技术在现实世界中的可靠应用。该模型在MolmoAct的基础上进行了全面升级,不仅性能大幅提升,而且完全开源,包括模型权重、数据集和自适应推理方法。
相比前代MolmoAct,MolmoAct 2的推理速度提升了37倍。在标准基准测试中,单个动作调用仅需180毫秒(基础模型)或790毫秒(带自适应深度推理),而MolmoAct需要6700毫秒。这一改进使得机器人能够以接近实时的速度响应环境变化,从需要明显停顿的动作转变为流畅的操作。
模型的核心创新在于其架构重构。MolmoAct 2并非简单地从Molmo 2初始化,而是采用了专门的具身推理变体Molmo 2-ER。该变体在超过300万个具身推理样本上训练,涵盖图像指向、物体检测、抽象空间推理等多方面。在13个具身推理基准上,Molmo 2-ER的平均得分为63.8,超越了GPT-5、Gemini 2.5 Pro等系统。
MolmoAct 2将Molmo 2-ER与一个专用的动作专家模块配对,通过流匹配生成机器人动作,并通过KV缓存桥与视觉语言模型连接。此外,团队开发了完全开源的动作分词器MolmoAct 2-FAST Tokenizer,解决了此前动作分词器数据未公开的问题。
为了训练MolmoAct 2,团队构建了MolmoAct 2-Bimanual YAM数据集,包含720小时的双臂机器人演示,涵盖叠毛巾、扫描杂货、充电等协调任务。这是目前最大的开源双臂操作数据集,数据量是MolmoAct所用机器人数据的30倍。该模型在零样本测试中表现出色,在Franka机械臂上(如将苹果放到盘子上、将移液管放入托盘等)平均成功率达87.1%,远超MolmoBot的48.4%和π0.5的45.2%。在第三方评测中,MolmoAct 2在8个双臂任务中的7个上排名第一,平均得分为0.51,领先于OpenVLA-OFT的0.36和π0.5的0.32。
在设计上,MolmoAct 2能够响应自然语言指令和使用视觉轨迹,让机器人更容易在不重新训练整个模型的情况下进行引导。团队还发布了参考硬件设置,包括两个YAM臂、顶置摄像头和近距离摄像头,为研究人员提供了简单易用的起点。
目前,MolmoAct 2已在斯坦福医学院的湿实验室中试点,用于CRISPR基因编辑实验中的常规操作步骤。斯坦福团队发现,MolmoAct 2有潜力简化湿实验室操作,加速科学发现。尽管性能优异,模型仍存在局限性,如当机械臂遮挡摄像头视野或需要极精细操作时可能遇到困难。Ai2鼓励社区在其基础上进一步研究和改进。