面向核聚变等离子体控制的离线强化学习:代码库与基准测试
离线强化学习为利用历史托卡马克数据开发等离子体控制器提供了有前景的途径,但因缺乏标准化基准而难以衡量进展。本文提出RL4F,一个基于DIII-D托卡马克真实放电数据的离线强化学习基准,涵盖旋转、密度、温度和压力四个全剖面跟踪任务。评估表明,离线基于模型的强化学习在多数任务上平均性能最优,但无单一方法统治所有任务,凸显了复杂长时域等离子体控制中动力学建模的重要性。代码、数据集和评估框架已开源。
核聚变被视为清洁能源的终极解决方案之一,而等离子体的稳定控制是实现可控核聚变的关键挑战。传统的等离子体控制器开发依赖于在线试错,这在真实托卡马克装置上成本高昂且风险巨大。离线强化学习(RL)通过从历史数据中学习策略,提供了一条更安全、更经济的途径。然而,该领域进展缓慢,部分原因是缺乏标准化的基准来评估不同算法在真实多执行器、长时域等离子体控制问题上的表现。
为填补这一空白,研究团队提出了RL4F——一个专为核聚变等离子体控制设计的离线强化学习基准。RL4F提供了闭环评估环境和基线比较,涵盖四项全剖面跟踪任务:旋转、密度、温度和压力。这些任务的底层动力学函数基于DIII-D托卡马克(一个实际运行的托卡马克装置)的历史放电数据构建。这使得基准测试结果更具现实意义和可迁移性。
在统一评估协议下,研究团队对一系列模仿学习和离线强化学习基线进行了全面测试。结果显示,离线基于模型的强化学习方法在大多数目标上取得了最佳平均性能,但没有任何单一方法在所有任务上占据绝对优势。这一发现强调了在复杂、长时域等离子体控制任务中,精确的动力学建模对于算法成功至关重要。
为推动相关研究进一步发展,团队已将代码库、数据集和评估框架全部开源。这不仅服务于核聚变社区,也为离线强化学习算法的开发提供了具有挑战性的新基准。研究人员可以基于RL4F快速比较不同方法,加速从离线数据到可靠等离子体控制器的转化。RL4F的发布标志着离线强化学习在核聚变等离子体控制领域迈出了标准化的重要一步,有望加速从理论研究到工程应用的转化。