2026-06-21 17:20 UTC+8站内改写1 分钟阅读更新: 2026-06-22 07:31 UTC+8

形式先于数据：物理AI的真正瓶颈

本文认为，物理AI的发展瓶颈不在于智能本身，而在于缺乏合适的物理形态和感知能力来收集真实世界的数据。特斯拉在自动驾驶上的成功源于汽车本身就是一个适合任务的“身体”，而人形机器人则需要更复杂的触觉和大量任务数据。当前成功的物理AI应用并非人形，而是结合先进视觉的简单机械臂，如农业采摘。

来源Hacker News AI作者: adlrocha

一位读者最近向我询问物理世界AI应用的进展。我的回答是：智能模型已经足够强大，但真正的瓶颈在于为AI配备合适的“身体”和“感官”，以及训练所需的数据。特斯拉之所以率先实现自动驾驶，并非因为其模型最聪明，而是因为汽车本身就是为驾驶任务而设计的形态：它有轮子、方向盘，还有放置摄像头的位置。这种形态上的契合使得数据收集成为可能，进而训练出自动驾驶模型。

汽车是一种非常特殊的机器人：它只在二维空间移动，有四个固定的接触点，不会摔倒，也不会掉落物品。相比之下，像用手捡起鸡蛋这样的任务，需要感知抓握力，这远比视觉复杂。特斯拉通过让数百万辆汽车在路上行驶，累计超过100亿英里的FSD驾驶数据，建立了一个数据飞轮，最终通过端到端的神经网络实现了自动驾驶。

现在，人形机器人面临类似的挑战。虽然像Figure、Optimus和Unitree这样的机器人已经能行走、平衡和抓取，但它们缺乏两项关键能力：触觉感知和训练数据。触觉需要每个关节都有力矩控制，而这类硬件成本高昂，供应链尚未成熟。此外，我们缺乏类似互联网文本那样丰富的物理动作数据集——没有网站记录如何精确调整关节扭矩来穿线或拿起鸡蛋。模拟环境存在“模拟到现实”的鸿沟，小型错误会不断累积。

目前人形机器人的部署仍局限于工厂中的狭窄任务，如搬运零件，且处于监督之下。真正取得进展的是农业领域：水果采摘机械臂通过深度学习视觉模型识别成熟度，在复杂环境中实时决策。John Deere的自动驾驶拖拉机配备了16个摄像头和感知模型，能够理解田地环境。从2021年到2024年，使用自主采摘机的果园数量从950个跃升至4300个以上。

这些成功案例表明，物理AI的下一阶段不是追求更智能的模型，而是为特定任务设计合适的“身体”，并积累足够多的真实世界数据。人形机器人可能最终实现通用性，但在此之前，我们需要解决触觉感知和训练数据的根本问题。