形式先於數據:物理AI的真正瓶頸
本文認為,物理AI的發展瓶頸不在於智能本身,而在於缺乏合適的物理形態和感知能力來收集真實世界的數據。特斯拉在自動駕駛上的成功源於汽車本身就是一個適合任務的“身體”,而人形機器人則需要更復雜的觸覺和大量任務數據。當前成功的物理AI應用並非人形,而是結合先進視覺的簡單機械臂,如農業採摘。
一位讀者最近向我詢問物理世界AI應用的進展。我的回答是:智能模型已經足夠強大,但真正的瓶頸在於為AI配備合適的“身體”和“感官”,以及訓練所需的數據。特斯拉之所以率先實現自動駕駛,並非因為其模型最聰明,而是因為汽車本身就是為駕駛任務而設計的形態:它有輪子、方向盤,還有放置攝像頭的位置。這種形態上的契合使得數據收集成為可能,進而訓練出自動駕駛模型。
汽車是一種非常特殊的機器人:它只在二維空間移動,有四個固定的接觸點,不會摔倒,也不會掉落物品。相比之下,像用手撿起雞蛋這樣的任務,需要感知抓握力,這遠比視覺複雜。特斯拉通過讓數百萬輛汽車在路上行駛,累計超過100億英里的FSD駕駛數據,建立了一個數據飛輪,最終通過端到端的神經網絡實現了自動駕駛。
現在,人形機器人面臨類似的挑戰。雖然像Figure、Optimus和Unitree這樣的機器人已經能行走、平衡和抓取,但它們缺乏兩項關鍵能力:觸覺感知和訓練數據。觸覺需要每個關節都有力矩控制,而這類硬件成本高昂,供應鏈尚未成熟。此外,我們缺乏類似互聯網文本那樣豐富的物理動作數據集——沒有網站記錄如何精確調整關節扭矩來穿線或拿起雞蛋。模擬環境存在“模擬到現實”的鴻溝,小型錯誤會不斷累積。
目前人形機器人的部署仍侷限於工廠中的狹窄任務,如搬運零件,且處於監督之下。真正取得進展的是農業領域:水果採摘機械臂通過深度學習視覺模型識別成熟度,在複雜環境中實時決策。John Deere的自動駕駛拖拉機配備了16個攝像頭和感知模型,能夠理解田地環境。從2021年到2024年,使用自主採摘機的果園數量從950個躍升至4300個以上。
這些成功案例表明,物理AI的下一階段不是追求更智能的模型,而是為特定任務設計合適的“身體”,並積累足夠多的真實世界數據。人形機器人可能最終實現通用性,但在此之前,我們需要解決觸覺感知和訓練數據的根本問題。