2026-04-29 16:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Molmo学会指向与操作

Ai2发布了MolmoPoint和MolmoWeb，将Molmo家族从视觉理解扩展到视觉行动。MolmoPoint通过直接选择输入数据实现了更精准的指向，在多项基准测试中达到最优；MolmoWeb则是一个基于视觉的网页代理，能够通过截图和鼠标键盘操作自主完成网页任务。两者均开源，旨在推动视觉智能的民主化。

来源Ai2 Blog

近日，艾伦人工智能研究所（Ai2）宣布推出MolmoPoint和MolmoWeb，这是Molmo系列视觉语言模型的新扩展，将模型的能力从单纯的视觉理解拓展至视觉交互和操作。这一举措延续了Ai2在开放AI领域的承诺，为研究人员和开发者提供了可检查、可适配、可复现的模型工具。

MolmoPoint的核心理念是让模型通过直接选择输入数据（例如图像中的区域）来实现指向，而不是输出抽象的文本坐标。这种方法不仅更直观，而且显著提升了指向的准确性和鲁棒性。实验显示，MolmoPoint在指向、屏幕元素识别和目标跟踪等基准测试中均达到了开源模型的最佳水平，尤其是在高分辨率和复杂界面场景下表现突出。研究团队表示，这一突破得益于他们将指向问题重新定义为跨模态任务，从而找到了更通用的解决方案。

MolmoPoint的出发点是解决传统VLM中指向能力训练的难题。Molmo研究负责人Chris Clark指出，训练通用VLM进行精确指向比想象中困难得多，往往需要大量的训练和数据混合调优。大多数模型通过生成文本坐标来指向，这是一个间接且容易出错的过程。MolmoPoint则采取了更直观的方法：模型首先选择一个粗略区域，然后精确定位到准确位置。这种思路源于将指向视为跨模态问题——对于图像输出XY坐标可行，但对于文本或音频输入则无效。因此，直接指向输入数据成为了自然而然的答案。结果令研究团队惊喜：MolmoPoint在指向、屏幕元素识别和物体跟踪基准测试中，在同等规模的开源模型中刷新了最先进水平，特别是在高分辨率和密集UI场景下精度和效率显著提升。

另一个扩展是MolmoWeb，这是一套多模态网页代理套件，能够根据自然语言指令和网页截图自主完成浏览器操作，完全不需要底层HTML代码或无障碍树。MolmoWeb负责人Tanmay Gupta表示，该代理通过截图感知、通过鼠标键盘操作，是Ai2构建视觉智能体的第一步。采用纯视觉感知是刻意为之：截图比底层代码对网站变化更鲁棒，且捕获成本更低——一张图片可以替代数千行网页结构。MolmoWeb在主流网页浏览基准测试中超越了同等规模的开源模型，其最强版本甚至击败了基于GPT-4o等更大闭源模型的智能体。

实现这一性能并不容易。团队在2025年设定了初步目标：构建一个仅能在20个网站上工作的代理，每个网站有5-10个模板化任务。到2026年初，重点转向扩展训练数据和增强评估可靠性。Gupta强调，在智能体研究中，评估尤其困难且昂贵，因为评估的不是孤立的预测，而是可能因单点失败而级联的行动序列。团队花费大量时间可视化轨迹并追踪数据生成、训练和评估之间的不一致。

Ai2坚持开源所有组件，包括模型检查点、训练数据（包含最大的公开人类网页任务演示集）和统一评估工具，以便社区复现和改进。随着MolmoBot、MolmoSpaces和WildDet3D的加入，Molmo生态系统现已涵盖指向、网页交互、3D感知和物理操作。每个组件均为开源，使大学实验室或个人开发者无需依赖特定供应商即可进行定制。正如Gupta所言：“我们的北极星是数字助手，让人们专注于只有人类能做的事情。”