AI News HubLIVE
站內改寫1 分鐘閱讀

Physical Intelligence 的機器人實時推理

Physical Intelligence 使用 Modal 平台,通過基於 QUIC 的專業傳輸協議,實現了低延遲的機器人遠程實時推理,僅增加 10-15 毫秒網絡開銷,並能靈活擴展至更大模型。

Physical Intelligence(Pi)正在構建一個通用機器人智能系統,旨在操控任何機器人完成任何任務。其核心模型採用視覺-語言-動作(VLA)架構,能夠接收視覺觀測、自然語言指令及機器人的本體感覺狀態,並輸出下一瞬間的電機指令。為確保模型在實際場景中的有效性,Pi 並不依賴仿真環境,而是通過真實機器人執行真實任務來驗證每個模型版本。這意味着數千次推理循環需要全天候運行在不斷擴大的機器人集羣上。

最初,Pi 採用本地推理方式:模型在雲端訓練後下載到機器人本地的 GPU 上運行。這種方式可靠且調試簡單,但需要在每台機器人上配備 GPU。為了更輕量化的方案,Pi 轉向了遠程推理。他們利用了 Modal 平台,該平台提供 Modal Tunnels 服務,可安全地將運行中的容器 TCP 端口暴露到公網,適用於交互式工作負載。然而,機器人控制迴路對抖動和隊頭阻塞非常敏感,標準的 TCP 協議並不理想。

因此,Pi 與 Modal 合作開發了一種更專業的傳輸方案:基於 QUIC 的 UDP 通道,並帶有自動 NAT 穿越功能。該系統在機器人運行時與 Modal GPU 容器之間建立持久雙向通道,機器人只需一次連接即可持續發送觀測數據並接收動作指令。該方案利用內置的 STUN 發現和 UDP 打洞技術實現 NAT 穿越,通過 Modal Dict 進行協調,無需自定義中繼基礎設施。通信基於 Rust 實現的 QUIC 協議,支持高吞吐和低延遲。最終,雲端僅增加約 10-15 毫秒的網絡開銷。

藉助 Modal,Pi 可以為每個部署分配更大的數據中心級 GPU,並立即運行 GPU 密集型實驗,甚至可以測試那些無法在機載 GPU 上運行的更大模型。模型檢查點被存儲在 Modal Volumes 中,直接掛載到 GPU 容器,加載時間少於 30 秒。此外,Modal 允許 Pi 將推理部署固定在靠近機器人的區域,縮短物理距離,保證低延遲。當需要在新地點添加機器人時,Pi 只需在相應區域啓動相同容器,掛載相同檢查點,即可快速連接機器人,無需運輸 GPU 設備或搭建本地集羣。