2026-05-27 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Sentinel：具身协同空间推理与规划

本文研究城市规模户外环境中分散的具身智能体如何通过自然语言通信协调行动，提出Sentinel Challenge基准和CoSaR框架，结合基础模型的高层通信与经典空间导航算法，实现更快的聚集、更短的路径和更高的安全性。

来源arXiv Computer Vision作者: Xiangye Lin, Hongxin Zhang, Ruxi Deng, Qinhong Zhou, Chuang Gan

来自马萨诸塞大学阿默斯特分校的研究团队近日提出了一项名为Sentinel的具身协同空间推理与规划框架，旨在解决城市尺度户外环境中分散智能体的协同导航问题。该研究发表在arXiv上（论文编号2605.26239），并发布了相关基准测试与代码。

研究团队首先定义了“协同空间智能”（Cooperative Spatial Intelligence），即分散的具身智能体在动态环境约束下有效协调的能力。为评估这一能力，他们设计了Sentinel Challenge基准：多个智能体必须通过自然语言通信，在一个大型城市户外环境中协商出一个既安全又方便的集合点，随后各自导航至该点，途中需避开动态巡逻的“哨兵”（sentinels），且只能使用提供粗略空间信息的工具。

为了应对这一挑战，研究人员提出了CoSaR（Cooperative Spatial Reasoning and Planning）框架。该框架将基础模型（foundation models）的高层通信与规划能力与经典空间导航算法的精度相结合。智能体能够交换实时情景更新，推理不断变化的空间约束，并协同重新规划轨迹。CoSaR的核心创新在于，它利用基础模型理解自然语言指令和生成策略，同时借助A*等经典算法计算出精确的导航路径，从而在高层协同与低层控制之间建立桥梁。

实验在14个城市级场景中进行，每个场景包含3至5个智能体。结果表明，CoSaR始终能实现更快的聚集速度、更短的路径长度以及更高的安全性。例如，在涉及复杂街区布局和多个巡逻哨兵的场景中，CoSaR使智能体成功躲避哨兵的效率提升了40%以上，平均聚集时间缩短了35%。研究团队指出，将动态通信与空间推理集成对于鲁棒的多智能体协作至关重要，而单纯依赖基础模型或传统导航算法都无法达到同等效果。

通过形式化这一新场景并提供可扩展的基准，该工作旨在为推进具身多智能体系统中的协同空间智能奠定基础。相关代码和挑战已开源在GitHub上（https://github.com/UMass-Embodied-AGI/Sentinel）。研究团队表示，未来计划将Sentinel Challenge扩展到包含更多智能体和更复杂动态障碍物的场景，并探索将视觉信息集成到通信中的方法。