2026-04-08 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Physical Intelligence 的机器人实时推理

Physical Intelligence 使用 Modal 平台，通过基于 QUIC 的专业传输协议，实现了低延迟的机器人远程实时推理，仅增加 10-15 毫秒网络开销，并能灵活扩展至更大模型。

Physical Intelligence（Pi）正在构建一个通用机器人智能系统，旨在操控任何机器人完成任何任务。其核心模型采用视觉-语言-动作（VLA）架构，能够接收视觉观测、自然语言指令及机器人的本体感觉状态，并输出下一瞬间的电机指令。为确保模型在实际场景中的有效性，Pi 并不依赖仿真环境，而是通过真实机器人执行真实任务来验证每个模型版本。这意味着数千次推理循环需要全天候运行在不断扩大的机器人集群上。

最初，Pi 采用本地推理方式：模型在云端训练后下载到机器人本地的 GPU 上运行。这种方式可靠且调试简单，但需要在每台机器人上配备 GPU。为了更轻量化的方案，Pi 转向了远程推理。他们利用了 Modal 平台，该平台提供 Modal Tunnels 服务，可安全地将运行中的容器 TCP 端口暴露到公网，适用于交互式工作负载。然而，机器人控制回路对抖动和队头阻塞非常敏感，标准的 TCP 协议并不理想。

因此，Pi 与 Modal 合作开发了一种更专业的传输方案：基于 QUIC 的 UDP 通道，并带有自动 NAT 穿越功能。该系统在机器人运行时与 Modal GPU 容器之间建立持久双向通道，机器人只需一次连接即可持续发送观测数据并接收动作指令。该方案利用内置的 STUN 发现和 UDP 打洞技术实现 NAT 穿越，通过 Modal Dict 进行协调，无需自定义中继基础设施。通信基于 Rust 实现的 QUIC 协议，支持高吞吐和低延迟。最终，云端仅增加约 10-15 毫秒的网络开销。

借助 Modal，Pi 可以为每个部署分配更大的数据中心级 GPU，并立即运行 GPU 密集型实验，甚至可以测试那些无法在机载 GPU 上运行的更大模型。模型检查点被存储在 Modal Volumes 中，直接挂载到 GPU 容器，加载时间少于 30 秒。此外，Modal 允许 Pi 将推理部署固定在靠近机器人的区域，缩短物理距离，保证低延迟。当需要在新地点添加机器人时，Pi 只需在相应区域启动相同容器，挂载相同检查点，即可快速连接机器人，无需运输 GPU 设备或搭建本地集群。