AI News HubLIVE
站内改写1 分钟阅读

形式先于数据:物理AI的真正瓶颈

本文认为,物理AI的发展瓶颈不在于智能本身,而在于缺乏合适的物理形态和感知能力来收集真实世界的数据。特斯拉在自动驾驶上的成功源于汽车本身就是一个适合任务的“身体”,而人形机器人则需要更复杂的触觉和大量任务数据。当前成功的物理AI应用并非人形,而是结合先进视觉的简单机械臂,如农业采摘。

来源Hacker News AI作者: adlrocha

一位读者最近向我询问物理世界AI应用的进展。我的回答是:智能模型已经足够强大,但真正的瓶颈在于为AI配备合适的“身体”和“感官”,以及训练所需的数据。特斯拉之所以率先实现自动驾驶,并非因为其模型最聪明,而是因为汽车本身就是为驾驶任务而设计的形态:它有轮子、方向盘,还有放置摄像头的位置。这种形态上的契合使得数据收集成为可能,进而训练出自动驾驶模型。

汽车是一种非常特殊的机器人:它只在二维空间移动,有四个固定的接触点,不会摔倒,也不会掉落物品。相比之下,像用手捡起鸡蛋这样的任务,需要感知抓握力,这远比视觉复杂。特斯拉通过让数百万辆汽车在路上行驶,累计超过100亿英里的FSD驾驶数据,建立了一个数据飞轮,最终通过端到端的神经网络实现了自动驾驶。

现在,人形机器人面临类似的挑战。虽然像Figure、Optimus和Unitree这样的机器人已经能行走、平衡和抓取,但它们缺乏两项关键能力:触觉感知和训练数据。触觉需要每个关节都有力矩控制,而这类硬件成本高昂,供应链尚未成熟。此外,我们缺乏类似互联网文本那样丰富的物理动作数据集——没有网站记录如何精确调整关节扭矩来穿线或拿起鸡蛋。模拟环境存在“模拟到现实”的鸿沟,小型错误会不断累积。

目前人形机器人的部署仍局限于工厂中的狭窄任务,如搬运零件,且处于监督之下。真正取得进展的是农业领域:水果采摘机械臂通过深度学习视觉模型识别成熟度,在复杂环境中实时决策。John Deere的自动驾驶拖拉机配备了16个摄像头和感知模型,能够理解田地环境。从2021年到2024年,使用自主采摘机的果园数量从950个跃升至4300个以上。

这些成功案例表明,物理AI的下一阶段不是追求更智能的模型,而是为特定任务设计合适的“身体”,并积累足够多的真实世界数据。人形机器人可能最终实现通用性,但在此之前,我们需要解决触觉感知和训练数据的根本问题。