Physical Intelligence 的機器人即時推理
Physical Intelligence 使用 Modal 平臺,透過基於 QUIC 的專業傳輸協議,實現了低延遲的機器人遠端即時推理,僅增加 10-15 毫秒網路開銷,並能靈活擴充套件至更大模型。
Physical Intelligence(Pi)正在構建一個通用機器人智慧系統,旨在操控任何機器人完成任何任務。其核心模型採用視覺-語言-動作(VLA)架構,能夠接收視覺觀測、自然語言指令及機器人的本體感覺狀態,並輸出下一瞬間的電機指令。為確保模型在實際場景中的有效性,Pi 並不依賴模擬環境,而是透過真實機器人執行真實任務來驗證每個模型版本。這意味著數千次推理迴圈需要全天候執行在不斷擴大的機器人叢集上。
最初,Pi 採用本地推理方式:模型在雲端訓練後下載到機器人本地的 GPU 上執行。這種方式可靠且除錯簡單,但需要在每臺機器人上配備 GPU。為了更輕量化的方案,Pi 轉向了遠端推理。他們利用了 Modal 平臺,該平臺提供 Modal Tunnels 服務,可安全地將執行中的容器 TCP 埠暴露到公網,適用於互動式工作負載。然而,機器人控制迴路對抖動和隊頭阻塞非常敏感,標準的 TCP 協議並不理想。
因此,Pi 與 Modal 合作開發了一種更專業的傳輸方案:基於 QUIC 的 UDP 通道,並帶有自動 NAT 穿越功能。該系統在機器人執行時與 Modal GPU 容器之間建立持久雙向通道,機器人只需一次連線即可持續傳送觀測資料並接收動作指令。該方案利用內建的 STUN 發現和 UDP 打洞技術實現 NAT 穿越,透過 Modal Dict 進行協調,無需自定義中繼基礎設施。通訊基於 Rust 實現的 QUIC 協議,支援高吞吐和低延遲。最終,雲端僅增加約 10-15 毫秒的網路開銷。
藉助 Modal,Pi 可以為每個部署分配更大的資料中心級 GPU,並立即執行 GPU 密集型實驗,甚至可以測試那些無法在機載 GPU 上執行的更大模型。模型檢查點被儲存在 Modal Volumes 中,直接掛載到 GPU 容器,載入時間少於 30 秒。此外,Modal 允許 Pi 將推理部署固定在靠近機器人的區域,縮短物理距離,保證低延遲。當需要在新地點新增機器人時,Pi 只需在相應區域啟動相同容器,掛載相同檢查點,即可快速連線機器人,無需運輸 GPU 裝置或搭建本地叢集。