自我对弈与少量人类数据催生类人自动驾驶能力
强化学习自我对弈虽能以低成本训练自动驾驶策略,但易产生与人类驾驶习惯不符的“异类”行为。新方法将少量人类演示(仅30分钟)作为正则化目标,结合最小安全目标奖励,训练出的策略能与人类轨迹协调,训练时间仅15小时(单GPU),数据量仅为模仿学习的1/2500。
近年来,自我对弈强化学习成为训练自动驾驶策略的新兴方法,无需人类数据即可通过廉价大规模仿真替代昂贵的人类驾驶演示。这种方法通过让智能体在模拟环境中自我博弈,不断优化驾驶策略,理论上可以无限生成训练数据,极大降低了对真实世界数据的依赖。然而,纯自我对弈训练的策略虽能高效完成驾驶任务,却常学习到与人类习惯迥异的“外星”驾驶规则——例如,没有人类驾驶员的车辆可能会采取极端的加速、急转弯或与其他车辆保持不舒适的安全距离,导致实际部署中的人机不兼容。
此前研究试图通过繁复的奖励工程和环境随机化来缓解行为偏差,但这些方法脆弱且劳动密集,往往需要大量的手动调整和领域知识。来自荷兰的研究团队提出了一种创新方案:不完全摒弃人类数据,而是将其作为正则化目标叠加在最小安全目标奖励之上。具体来说,他们设计了一个双层优化框架:第一层使用人类演示数据作为软约束,引导策略向人类行为模式靠近;第二层通过最小化安全风险奖励确保基本的安全性。这种方法效果显著——仅需30分钟的人类驾驶演示(仅为模仿学习方法需用数据量的1/2500),训练出的策略便能与预留的人类轨迹完美协调,且整个训练过程在单张消费级GPU上仅需15小时。
论文作者以“好汤中的调料”比喻人类数据的作用,强调少量人类示范即可引导自我对弈策略走向类人行为模式。这一平衡方案既保留了自我对弈的高效性和探索能力,又通过极少量人类数据有效约束了行为轨迹。研究团队进行了大量消融实验,证明30分钟的人类数据是最优选择;更少的数据会导致策略仍显异类,更多的数据则收益递减,且会增加数据采集成本。
研究团队已开源全部代码并发布演示视频,研究者可进一步验证该方法的可复现性。该成果有望大幅降低自动驾驶系统对人类标注数据的依赖,同时确保自主系统与人类驾驶员的安全交互。此外,该方法不仅限于自动驾驶,还可推广至其他需要人类兼容行为的机器人控制任务,如无人机导航或工业机械臂操作。