扩展强化学习用于交通平滑:100辆自动驾驶汽车的高速公路部署
我们部署了100辆强化学习(RL)控制的车辆进入高峰时段的高速公路交通,以缓解拥堵并降低所有人的燃油消耗。通过数据驱动的模拟训练,RL智能体学会了在保持通行能力和安全性的同时最大化能效。实地测试表明,少量经过良好控制的自动驾驶汽车(AV)即可显著改善交通流和燃油效率,节省高达15-20%的能量。
我们成功部署了100辆由强化学习(RL)控制的车辆,在高峰时段的高速公路车流中缓解拥堵并降低燃油消耗。目标直指那些令人沮丧的“走走停停”波浪——这些看似无原因的减速和加速会导致拥堵和巨大的能源浪费。为了训练有效的流量平滑控制器,我们构建了快速、数据驱动的模拟环境,让RL智能体在其中交互学习,在保持通行能力和安全驾驶的同时最大化能效。
总体而言,一小部分经过良好控制的自动驾驶汽车(AV)就足以显著改善所有道路使用者的交通流和燃油效率。更重要的是,这些训练好的控制器设计为可部署在大多数现代车辆上,以去中心化方式运行,仅依赖标准雷达传感器。在我们的最新论文中,我们探讨了在这项100车实验中从模拟到实地大规模部署RL控制器所面临的挑战。
“幽灵堵车”的挑战 如果你开车,肯定经历过走走停停波浪的困扰。这些波浪通常由驾驶行为中的微小波动通过交通流放大引起。由于非零的反应时间,我们可能比前车刹车更猛,导致后车同样动作,最终在后方形成完全停止。这些波浪向后传播,导致频繁加速带来的能效下降、CO2排放增加和事故风险上升。传统方法如匝道控制和可变限速需要昂贵的基础设施和集中协调,而AV提供了一种更可扩展的方案——但它们必须更智能地驾驶,这正是RL的用武之地。
用于波浪平滑AV的强化学习 RL是一种强大的控制方法,智能体通过与环境的交互学习最大化奖励信号。在我们的场景中,环境是混合自主交通,AV学习策略以抑制走走停停波浪并减少自身和附近人类驾驶车辆的燃油消耗。训练需要快速模拟,我们基于田纳西州纳什维尔附近I-24高速公路的实验数据构建了模拟环境,车辆重演高速公路轨迹,产生不稳定交通供后方AV学习平滑。
AV的设计注重可部署性,仅需自身速度、前车速度和车间距等基本传感器信息。RL智能体据此输出瞬时加速度或期望速度。仅使用本地测量的关键优势是控制器可在大多数现代车辆上以去中心化方式部署,无需额外基础设施。
奖励设计 最具挑战的部分是设计奖励函数,使其最大化时符合多个目标:波浪平滑、能效、安全、驾驶舒适性和符合人类驾驶规范。平衡这些目标需要找到合适的系数。例如,如果燃油消耗最小化主导奖励,RL AV会学会在高速公路上停车,因为这最节能。为防止此情况,我们引入了动态最小和最大间距阈值,并惩罚AV后方人类车辆的燃油消耗,以抑制自私行为。最终目标是实现节能与合理安全驾驶之间的平衡。
模拟结果 AV学会的行为是保持比人类驾驶员稍大的间距,从而更有效地吸收突发减速。在模拟中,这种方法在拥堵场景下实现了所有道路使用者高达20%的燃油节省,而AV比例不到5%。这些AV不需要特殊车辆,可以是配备智能自适应巡航控制(ACC)的标准乘用车。
100 AV实地测试:大规模部署RL 鉴于模拟结果令人鼓舞,下一步自然是从模拟走向高速公路。我们将训练好的RL控制器部署在100辆车上,在I-24高速公路高峰时段进行了数天测试。这项名为MegaVanderTest的大规模实验是有史以来最大的混合自主交通平滑实验。部署前的步骤包括:在数据驱动模拟中训练和验证鲁棒性;上传至硬件,通过车辆自带巡航控制操作;集成到模块化控制框架MegaController中,该框架结合了考虑下游交通状况的速度规划指导与RL控制器作为最终决策者;在道路上进行硬件验证,根据人工监督反馈调整控制。
一旦验证通过,RL控制器便在100辆车上部署,在I-24早高峰时段行驶。周围交通毫不知情,确保了驾驶员行为无偏。数据通过沿途数十个架空摄像头采集,经计算机视觉管道提取出数百万条车辆轨迹。轨迹指标显示AV周围燃油消耗呈下降趋势,与模拟结果一致。例如,紧跟AV后方的人类驾驶员平均燃油消耗更低。通过测量速度和加速度的方差,我们也观察到波浪幅度降低。总体而言,尽管从大量视频数据中获取精确测量复杂,但我们观察到受控车辆周围有15-20%的节能趋势。
最终思考 这次100车实地操作测试是去中心化的,没有AV间的显式合作或通信,反映了当前自动驾驶部署现状,使我们向更平滑、更节能的高速公路迈进了一步。然而,仍有巨大改进潜力。加速更准确的人类驾驶模型模拟对于缩小模拟与现实差距至关重要。为AV配备额外交通数据(通过先进传感器或集中规划)可进一步提升性能。例如,多智能体RL有望改进合作控制策略,但启用AV间通过5G网络显式通信能否进一步提高稳定性和缓解走走停停波浪仍是开放问题。关键的是,我们的控制器与现有ACC系统无缝集成,使大规模实地部署成为可能。配备智能交通平滑控制的车辆越多,道路上波浪越少,意味着更少的污染和所有人的燃油节省!
许多贡献者参与了MegaVanderTest的实施,完整名单可在CIRCLES项目页面获取。