2026-06-15站内改写2 分钟阅读更新: 2026-06-15

AnyGoal: 视觉语言引导的多智能体探索实现免训练终身导航

AnyGoal是一种无需训练的多机器人导航架构，利用视觉语言模型（VLM）驱动边界探索，通过共享的2D高斯贝叶斯价值图（BVM）协调智能体，在GOAT-Bench上达到52.4%子任务成功率，比Modular GOAT提升27.5个百分点。

来源arXiv Robotics作者: MoniJesu James, Marcelino Julio Fernando, Miguel Altamirano Cabrera, Dzmitry Tsetserukou

现有的端到端导航策略在迁移到分布外场景时性能急剧下降。模块化管道如Modular GOAT受限于封闭集目标检测的召回率，而3D快照记忆系统如3D-Mem则维护密集的视角相关表示，计算开销大。为此，研究人员提出AnyGoal，一种无需训练的多机器人导航架构，将视觉语言模型（VLM）置于边界探索的核心，并通过共享的2D高斯贝叶斯价值图（BVM）协调智能体。

BVM维护每个像素关于目标相关性的后验概率（均值μ和方差σ²），通过深度锥掩码对VLM得分进行精度加权融合来更新，并且在子任务之间从不重置，实现终身证据积累。边界由VLM作为评判器的softmax与BVM上的贝叶斯UCB项的凸组合进行排序。一个带有空间分离惩罚和承诺滞后的贪婪分配器在没有中央控制器的情况下将边界分配给多个智能体。

在完整的GOAT-Bench验证集未见分割（360个场景，2669个子任务）上，双智能体系统在严格物理约束下（离散0.25米步长，无瞬移，42°水平视场）实现了52.4%的子任务成功率和12.7%的SPL，比Modular GOAT（24.9%）提高了27.5个百分点。单智能体AnyGoal达到41.9%的子任务成功率，表明性能提升源于决策架构。四维感知消融实验显示，开放词汇检测器将主导失败模式从探索转移到了目标验证。

AnyGoal的关键创新在于其无需训练的特性。与需要大量模拟数据训练的端到端策略不同，AnyGoal利用预训练的VLM进行场景理解，仅需通过VLM对图像块的推理来评估目标相关性。同时，BVM的设计允许智能体在长时间任务中持续积累信息，即使子目标发生变化，也不会丢失之前探索获得的证据。这使得AnyGoal特别适用于未知环境中的终身导航任务，例如搜索救援或长期自主探索。

研究者还展示了系统的可扩展性。理论上，AnyGoal可以支持任意数量的智能体协同工作，而无需增加中央控制器的复杂度。实验中的双智能体配置已经证明，通过简单的贪婪分配策略即可有效避免智能体之间的冲突和重复探索，显著提升任务完成效率。此外，BVM的贝叶斯更新机制使得系统对VLM的偶尔误判具有鲁棒性，因为每个像素的置信度会随着观测次数的增加而调整。

未来的研究方向包括将AnyGoal扩展到更复杂的交互场景，以及与物理抓取或操作任务相结合。当前架构主要关注导航本身，但研究者认为其核心思想——即利用VLM进行开放词汇推理并结合贝叶斯记忆——可以推广到更通用的机器人任务中。论文已被提交至arXiv，代码和模型预计将开源以促进进一步研究。