AI News HubLIVE
站内改写2 分钟阅读

物理AI的未来不在于更智能的机器人,而在于更智能的界面

Wetour Robotics认为,物理AI的下一个前沿不是更智能的机器人,而是将人体视为计算网络中的一流节点的更智能界面。其空间意图融合平台Orchestra结合空间位置、视觉背景和手势意图,实现低延迟、免提控制连接设备。系统使用边缘AI和表面肌电信号(sEMG)进行动作前意图感知,解决了传统界面在现实场景中的失效问题。文章讨论了其架构、权衡及对领域的影响。

来源IEEE Spectrum AI作者: Wetour Robotics

Wetour Robotics在最新技术白皮书中提出了一个颠覆性观点:物理AI的未来不在于制造更智能的机器人,而在于设计更智能的人机界面。该公司认为,过去40年,人机交互一直局限于屏幕、按钮和语音三种模式,这些模式在用户双手被占用、视线无法离开或不便说话的场景下彻底失效。例如,风力涡轮机上的技术人员需要双手操作扳手,无法腾出手来操作诊断设备;物流工人戴着手套,需要重新引导叉车;使用辅助移动设备的人希望在不掏出手机或说话的情况下前进。这些场景并不需要更聪明的机器人,而是需要一种更自然的方式让机器理解人的意图。

Wetour Robotics的解决方案是“空间意图融合”(Spatial Intent Fusion),该技术同时处理三个维度的信息:空间位置、视觉背景和手势意图,并将它们融合成实时指令,传递给任何连接的设备。其核心平台名为“Orchestra”,是一个便携式智能枢纽,运行自主操作系统,负责传感器融合、意图推理、命令转换和安全仲裁。该平台参考计算平台为NVIDIA Jetson Orin Nano Super,提供足够的本地推理能力,使整个控制循环在边缘完成,关键路径不依赖云端。从生物信号采集到执行器命令的全链路延迟控制在100毫秒以内,确保闭环控制感觉自然而不滞后。

Orchestra架构分为三个感知层和四个协调引擎。感知层包括:Orchestra本身(本地计算和编排核心)、VisionLink(视觉和空间感知层,利用摄像头和视觉模型进行物体识别、距离估计和环境追踪)、以及Conductor(生物信号管道,通过腕带设备采集表面肌电信号sEMG,并将时间模式分类为离散手势或连续控制信号)。sEMG的技术亮点在于其信号先于可见动作出现:运动单位动作电位在手指完成相应手势前约50至80毫秒就会出现在皮肤表面,Wetour Robotics称之为“动作前意图感知”,使Orchestra能够预测用户意图而非被动反应。

在四个协调引擎中,感知引擎接收并标准化原始传感器数据;意图引擎跨模态执行空间意图融合,解析用户意图;编排引擎将意图转换为特定设备的命令序列;安全引擎仲裁冲突命令、强制执行操作边界并基于运行时安全条件控制执行。

Wetour Robotics坦承仍有三大工程挑战未完全解决:运动中sEMG基线稳定性、边缘AI计算小型化、以及第三方设备协议的异构性。针对sEMG稳定性,Orchestra在复杂环境中默认使用较少的鲁棒离散手势,保留连续控制模式用于信噪比支持的环境。针对小型化,公司设计了紧凑的载板、散热和电池模块,实现全天佩戴。针对协议异构性,Orchestra使用AI代理层自适应协商连接和协议转换。

文章最后指出,将人类重新纳入计算循环不仅是改善个体用户的界面,更是为整个人形机器人领域生成真实世界的人机交互数据。Wetour Robotics的标语“你的身体就是界面”概括了这一愿景。