Uni-LaViRA:统一具身导航的语言-视觉-机器人动作翻译
Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。
文章情报
要点
- 提出导航的泛化性可通过结构而非仅数据规模获得。
- Uni-LaViRA将导航分解为语言动作(语义方向)和视觉动作(像素级目标),两者均在MLLM的输出流形内。
- 零样本统一四个任务系列和四种异构机器人。
- 无需训练,在VLN-CE R2R上达到60.7%的成功率。
为什么重要
这条新闻值得关注,因为提出导航的泛化性可通过结构而非仅数据规模获得。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
具身导航是人工智能领域的一个重要挑战,它要求智能体将语言指令和视觉观察转化为一系列空间动作,从而驱动真实机器人在从未见过的环境中自主移动。当前,主流方法是通过在越来越大的机器人轨迹数据集上扩展视觉-语言-动作(VLA)基础模型来提升性能。然而,发表于arXiv的一篇新论文提出了一个不同的观点:对于导航任务而言,泛化能力不仅可以通过数据规模的扩大来获得,还可以通过结构设计来实现。
该论文的作者们认为,导航的底层决策结构本质上可以归结为一种单一的语言-视觉-机器人动作翻译。在这种翻译中,语言动作输出语义级别的方向指令,而视觉动作则输出像素级别的视觉目标。值得注意的是,这两种输出都位于预训练多模态大语言模型(MLLM)的自然输出流形内,这意味着智能体可以通过推理来完成导航任务,而无需从机器人数据中专门学习。
基于这一洞察,研究团队提出了Uni-LaViRA——一种统一的智能体架构。该架构以零样本的方式扩展到四个不同的任务系列:VLN-CE、ObjectNav、EQA和Aerial-VLN,并支持四种异构的真实机器人平台:轮式机器人、四足机器人、人形机器人和自建无人机。为了实现这种统一的实用性,Uni-LaViRA引入了两种智能体循环机制。首先是待办列表记忆(TODO List Memory,TDM),它在每一步都重写待办子目标的结构化清单,并将未完成的项目重新注入智能体的最近注意力窗口,从而确保持续跟踪进度。其次是第二次机会回溯(Second Chance Backtrack,SCB),它允许机器人回滚到错误发生前的状态,并根据失败的子轨迹调整下一步规划,从而将单次导航转变为自我纠正的过程。
在完全无需训练的情况下,Uni-LaViRA在多个基准测试中取得了令人瞩目的成果。在VLN-CE R2R数据集上达到60.7%的成功率,在VLN-CE RxR上达到51.3%,在HM3D-v2上达到77.7%,在HM3D-OVON上达到60.0%,在MP3D-EQA上达到54.7%,在OpenUAV上达到40.0%。这些结果与甚至超越了最近依赖数百万样本和数千GPU小时训练的导航基础模型。
这项工作展示了通过结构创新而非仅仅依赖数据规模来推进具身导航研究的巨大潜力。它为未来的零样本跨任务和跨机器人泛化提供了新的思路,有望推动具身智能在实际应用中的进一步发展。