2026-06-18站内改写1 分钟阅读更新: 2026-06-18

Guava：一种有效且通用的具身操作框架

Guava是一种针对具身操作的框架，通过系统性探索设计空间，提出迭代感知-推理-行动循环、语义抽象动作和多模态观察三个关键要素。利用少于2000条仿真轨迹，可将具身操作能力蒸馏至4B开源模型，性能和泛化能力与前沿专有模型相当。

来源arXiv Robotics作者: Haowen Liu, Xirui Li, Shaoxiong Yao, Peng Shi, Tianyi Zhou, Jia-Bin Huang, Furong Huang, Jiayuan Mao

近年来，语言模型在大规模视觉-语言数据上展现出强大的具身智能潜力。通过工具使用来利用模型，结合高层推理与外部感知、规划和控制模块，为端到端视觉-语言-动作系统提供了一种替代方案。然而，什么构成有效的具身操作框架，以及这种框架能在多大程度上释放不同推理模型的能力，仍是悬而未决的问题。

为了解决上述问题，研究团队提出了Guava框架。该框架通过系统性地探索智能体工作流、动作空间和观测空间的设计空间，识别出有效具身智能体的三个关键要素：迭代感知-推理-行动循环、语义抽象动作和多模态观测。这三个要素共同构成了一个通用且可扩展的接口。

为了验证这些设计原则的普适性，研究人员还开发了一套端到端的训练流水线，将具身操作能力蒸馏至一个仅有40亿参数的开源模型。整个训练过程仅使用了不到2000条完全在仿真环境中采集的轨迹数据。实验结果表明，该模型在仿真和真实世界环境中均取得了与前沿专有模型相当的性能，并展现出对未见物体、新指令和长时任务强大的泛化能力。

这项研究的直接含义是：一个精心设计的框架可以充当可扩展的、与模型无关的接口，使紧凑型开源模型在极少训练数据下展现出强大的具身能力。这为未来开发更高效、更灵活的具身人工智能系统提供了重要参考。