2026-06-21 17:20 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-22 07:31 UTC+8

形式先於數據：物理AI的真正瓶頸

本文認為，物理AI的發展瓶頸不在於智能本身，而在於缺乏合適的物理形態和感知能力來收集真實世界的數據。特斯拉在自動駕駛上的成功源於汽車本身就是一個適合任務的“身體”，而人形機器人則需要更復雜的觸覺和大量任務數據。當前成功的物理AI應用並非人形，而是結合先進視覺的簡單機械臂，如農業採摘。

來源Hacker News AI作者: adlrocha

一位讀者最近向我詢問物理世界AI應用的進展。我的回答是：智能模型已經足夠強大，但真正的瓶頸在於為AI配備合適的“身體”和“感官”，以及訓練所需的數據。特斯拉之所以率先實現自動駕駛，並非因為其模型最聰明，而是因為汽車本身就是為駕駛任務而設計的形態：它有輪子、方向盤，還有放置攝像頭的位置。這種形態上的契合使得數據收集成為可能，進而訓練出自動駕駛模型。

汽車是一種非常特殊的機器人：它只在二維空間移動，有四個固定的接觸點，不會摔倒，也不會掉落物品。相比之下，像用手撿起雞蛋這樣的任務，需要感知抓握力，這遠比視覺複雜。特斯拉通過讓數百萬輛汽車在路上行駛，累計超過100億英里的FSD駕駛數據，建立了一個數據飛輪，最終通過端到端的神經網絡實現了自動駕駛。

現在，人形機器人面臨類似的挑戰。雖然像Figure、Optimus和Unitree這樣的機器人已經能行走、平衡和抓取，但它們缺乏兩項關鍵能力：觸覺感知和訓練數據。觸覺需要每個關節都有力矩控制，而這類硬件成本高昂，供應鏈尚未成熟。此外，我們缺乏類似互聯網文本那樣豐富的物理動作數據集——沒有網站記錄如何精確調整關節扭矩來穿線或拿起雞蛋。模擬環境存在“模擬到現實”的鴻溝，小型錯誤會不斷累積。

目前人形機器人的部署仍侷限於工廠中的狹窄任務，如搬運零件，且處於監督之下。真正取得進展的是農業領域：水果採摘機械臂通過深度學習視覺模型識別成熟度，在複雜環境中實時決策。John Deere的自動駕駛拖拉機配備了16個攝像頭和感知模型，能夠理解田地環境。從2021年到2024年，使用自主採摘機的果園數量從950個躍升至4300個以上。

這些成功案例表明，物理AI的下一階段不是追求更智能的模型，而是為特定任務設計合適的“身體”，並積累足夠多的真實世界數據。人形機器人可能最終實現通用性，但在此之前，我們需要解決觸覺感知和訓練數據的根本問題。