AI News HubLIVE
站内改写1 分钟阅读

BIFROST:桥接不变特征表示实现观测空间的仿真到现实迁移

BIFROST是一种新的仿真到现实迁移方法,通过跨域双模拟目标从原始观测中学习不变特征,使策略能够从仿真零样本迁移到现实。在视觉和动力学域差距的任务中,它优于现有方法。

来源arXiv Robotics作者: Yunfu Deng, Josiah P. Hanna

在机器人策略学习的仿真到现实迁移中,仿真与真实环境之间的差异一直是一个核心挑战。现有的方法通常通过独立的适应模块分别处理视觉或动力学的不匹配,当两种差异同时存在时,再将模块组合或堆叠。然而,仿真到现实迁移的根本前提是,仿真和现实中的任务存在共享结构:无论渲染或物理的域特定差异如何,从等价配置出发的等价动作会产生等价的长期结果。基于这一洞察,来自的研究人员Yunfu Deng和Josiah P. Hanna提出了BIFROST方法,旨在直接从原始观测中识别并利用这种共享结构,训练出能够实现零样本迁移的策略。

BIFROST的核心是一个跨域双模拟学习目标。该方法利用配对的跨域数据(即仿真和现实中对应情景的观测-动作序列),学习一个共享的历史编码器。这个编码器将那些导致等价长期行为的观测-动作序列映射到潜在空间中的邻近点,无论它们来自哪个域。通过这种方式,模型忽略了域特定的视觉和动力学差异,只保留了任务相关的本质特征。仿真中基于这些潜在状态训练的策略可以直接部署到现实环境,无需额外的微调。

研究团队在多个任务上进行了实验验证,包括仿真到仿真的视觉导航、仿真到现实的接触丰富操作任务以及视觉伺服任务。结果表明,在同时存在视觉和动力学域差距的情况下,BIFROST成功实现了策略迁移,而传统的域适应和协同训练基线方法则失效。这一方法为机器人领域提供了一种更加鲁棒且高效的仿真到现实迁移方案,有望加速机器人策略从仿真学习到实际部署的进程。