AI周报#883:Qwen进军机器人领域
阿里巴巴的Qwen模型家族推出机器人套件,旨在弥合感知与行动之间的鸿沟。三个新模型分别专注于导航、操作和世界建模,核心挑战在于将物理动作转化为可学习的token。
大约三年来,Qwen模型家族一直生活在“玻璃箱”中——它能阅读代码、查看截图、回答问题,但始终无法触碰现实世界。它可以详尽描述一个咖啡杯,却无法将其拿起。这种理解与行动之间的鸿沟,正是阿里巴巴在六月发布Qwen-Robot Suite时最坦诚的表述。通义实验室团队直言:看见不等于行动。感知与推理能力已足够强大,但具身智能的瓶颈在于“我知道需要做什么”到“这是实现它所需的关节力矩”之间的转换层。
为此,阿里巴巴推出了三个新模型:Qwen-RobotNav专注于导航,Qwen-RobotManip负责操作,Qwen-RobotWorld则建模物理世界。它们的价值不在于单一的基准分数,而在于这种赌注的形态。核心洞见是:真正的瓶颈不是智能,而是如何将物理行动进行token化。这一思路提示,未来机器学习将在动作的离散化表示上取得突破。