AI週報#883:Qwen進軍機器人領域
阿里巴巴的Qwen模型家族推出機器人套件,旨在彌合感知與行動之間的鴻溝。三個新模型分別專注於導航、操作和世界建模,核心挑戰在於將物理動作轉化為可學習的token。
大約三年來,Qwen模型家族一直生活在“玻璃箱”中——它能閱讀程式碼、檢視截圖、回答問題,但始終無法觸碰現實世界。它可以詳盡描述一個咖啡杯,卻無法將其拿起。這種理解與行動之間的鴻溝,正是阿里巴巴在六月釋出Qwen-Robot Suite時最坦誠的表述。通義實驗室團隊直言:看見不等於行動。感知與推理能力已足夠強大,但具身智慧的瓶頸在於“我知道需要做什麼”到“這是實現它所需的關節力矩”之間的轉換層。
為此,阿里巴巴推出了三個新模型:Qwen-RobotNav專注於導航,Qwen-RobotManip負責操作,Qwen-RobotWorld則建模物理世界。它們的價值不在於單一的基準分數,而在於這種賭注的形態。核心洞見是:真正的瓶頸不是智慧,而是如何將物理行動進行token化。這一思路提示,未來機器學習將在動作的離散化表示上取得突破。