2026-06-19站内改写2 分钟阅读更新: 2026-06-19

自我对弈与少量人类数据催生类人自动驾驶能力

强化学习自我对弈虽能以低成本训练自动驾驶策略，但易产生与人类驾驶习惯不符的“异类”行为。新方法将少量人类演示（仅30分钟）作为正则化目标，结合最小安全目标奖励，训练出的策略能与人类轨迹协调，训练时间仅15小时（单GPU），数据量仅为模仿学习的1/2500。

来源arXiv Machine Learning作者: Daphne Cornelisse, Julian Hunt, Zixu Zhang, Wa\"el Doulazmi, Kevin Joseph, Jaime Fern\'andez Fisac, Eugene Vinitsky

近年来，自我对弈强化学习成为训练自动驾驶策略的新兴方法，无需人类数据即可通过廉价大规模仿真替代昂贵的人类驾驶演示。这种方法通过让智能体在模拟环境中自我博弈，不断优化驾驶策略，理论上可以无限生成训练数据，极大降低了对真实世界数据的依赖。然而，纯自我对弈训练的策略虽能高效完成驾驶任务，却常学习到与人类习惯迥异的“外星”驾驶规则——例如，没有人类驾驶员的车辆可能会采取极端的加速、急转弯或与其他车辆保持不舒适的安全距离，导致实际部署中的人机不兼容。

此前研究试图通过繁复的奖励工程和环境随机化来缓解行为偏差，但这些方法脆弱且劳动密集，往往需要大量的手动调整和领域知识。来自荷兰的研究团队提出了一种创新方案：不完全摒弃人类数据，而是将其作为正则化目标叠加在最小安全目标奖励之上。具体来说，他们设计了一个双层优化框架：第一层使用人类演示数据作为软约束，引导策略向人类行为模式靠近；第二层通过最小化安全风险奖励确保基本的安全性。这种方法效果显著——仅需30分钟的人类驾驶演示（仅为模仿学习方法需用数据量的1/2500），训练出的策略便能与预留的人类轨迹完美协调，且整个训练过程在单张消费级GPU上仅需15小时。

论文作者以“好汤中的调料”比喻人类数据的作用，强调少量人类示范即可引导自我对弈策略走向类人行为模式。这一平衡方案既保留了自我对弈的高效性和探索能力，又通过极少量人类数据有效约束了行为轨迹。研究团队进行了大量消融实验，证明30分钟的人类数据是最优选择；更少的数据会导致策略仍显异类，更多的数据则收益递减，且会增加数据采集成本。

研究团队已开源全部代码并发布演示视频，研究者可进一步验证该方法的可复现性。该成果有望大幅降低自动驾驶系统对人类标注数据的依赖，同时确保自主系统与人类驾驶员的安全交互。此外，该方法不仅限于自动驾驶，还可推广至其他需要人类兼容行为的机器人控制任务，如无人机导航或工业机械臂操作。