2026-05-05 16:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

MolmoAct 2：为真实世界工作的机器人打造的开放基础

MolmoAct 2 是一个完全开放的机器人基础模型，提供更快、更强的3D动作推理能力，适用于真实世界的机器人任务，同时发布了一个大型双臂操作数据集，供研究人员研究、复现和构建。

MolmoAct 2 是艾伦人工智能研究所（Ai2）发布的新一代机器人基础模型，旨在推动机器人技术在现实世界中的可靠应用。该模型在MolmoAct的基础上进行了全面升级，不仅性能大幅提升，而且完全开源，包括模型权重、数据集和自适应推理方法。

相比前代MolmoAct，MolmoAct 2的推理速度提升了37倍。在标准基准测试中，单个动作调用仅需180毫秒（基础模型）或790毫秒（带自适应深度推理），而MolmoAct需要6700毫秒。这一改进使得机器人能够以接近实时的速度响应环境变化，从需要明显停顿的动作转变为流畅的操作。

模型的核心创新在于其架构重构。MolmoAct 2并非简单地从Molmo 2初始化，而是采用了专门的具身推理变体Molmo 2-ER。该变体在超过300万个具身推理样本上训练，涵盖图像指向、物体检测、抽象空间推理等多方面。在13个具身推理基准上，Molmo 2-ER的平均得分为63.8，超越了GPT-5、Gemini 2.5 Pro等系统。

MolmoAct 2将Molmo 2-ER与一个专用的动作专家模块配对，通过流匹配生成机器人动作，并通过KV缓存桥与视觉语言模型连接。此外，团队开发了完全开源的动作分词器MolmoAct 2-FAST Tokenizer，解决了此前动作分词器数据未公开的问题。

为了训练MolmoAct 2，团队构建了MolmoAct 2-Bimanual YAM数据集，包含720小时的双臂机器人演示，涵盖叠毛巾、扫描杂货、充电等协调任务。这是目前最大的开源双臂操作数据集，数据量是MolmoAct所用机器人数据的30倍。该模型在零样本测试中表现出色，在Franka机械臂上（如将苹果放到盘子上、将移液管放入托盘等）平均成功率达87.1%，远超MolmoBot的48.4%和π0.5的45.2%。在第三方评测中，MolmoAct 2在8个双臂任务中的7个上排名第一，平均得分为0.51，领先于OpenVLA-OFT的0.36和π0.5的0.32。

在设计上，MolmoAct 2能够响应自然语言指令和使用视觉轨迹，让机器人更容易在不重新训练整个模型的情况下进行引导。团队还发布了参考硬件设置，包括两个YAM臂、顶置摄像头和近距离摄像头，为研究人员提供了简单易用的起点。

目前，MolmoAct 2已在斯坦福医学院的湿实验室中试点，用于CRISPR基因编辑实验中的常规操作步骤。斯坦福团队发现，MolmoAct 2有潜力简化湿实验室操作，加速科学发现。尽管性能优异，模型仍存在局限性，如当机械臂遮挡摄像头视野或需要极精细操作时可能遇到困难。Ai2鼓励社区在其基础上进一步研究和改进。