立场:强化学习研究者需要区分解决模拟器和将模拟器作为代理使用
本文是一篇立场论文,指出强化学习研究中有两种使用模拟器的方式:解决模拟器本身,以及将模拟器作为实际部署的代理。作者通过示例和实验表明,混淆这两种用法会导致误导性结论,并呼吁社区明确区分二者的使用方式。
在强化学习(RL)研究中,模拟器被广泛用作评估和训练算法的工具。然而,一篇在ICML 2026上发表的立场论文指出,研究者们常常忽略了两种根本不同的模拟器使用方式:解决模拟器本身,以及将模拟器作为真实部署环境的一种代理。由Matthew Vandergrift等人撰写的论文强调,当研究者专注于在模拟器中取得高分时,往往会采用专为模拟器设计的解决方案,例如利用环境的确定性或可重置性,这些方法在真实部署环境中往往不适用。这样做实际上偏离了“学习在部署中决策”的原始目标。尽管研究如何高效求解模拟器本身也是一个有价值的方向,但它与将模拟器作为代理的研究在约束条件、算法选择和评估指标上有着本质区别。
具体来说,在求解模拟器的设定下,智能体可以无限制地访问环境,能够进行多次尝试、回放、或者重置到任意状态。这些“特权”使得许多算法(例如基于表格的规划或专用的搜索算法)能够取得高分,但在真实部署中却无法使用。相反,当把模拟器作为部署代理时,智能体必须像在真实世界中一样,仅从一次轨迹中学习,不能重置或获得额外回合。这种约束差异导致合适的算法不同:对于求解模拟器,追求最终性能最大化的算法(如进化策略)可能合适;而对于代理使用,则更需要关注样本效率和泛化能力的算法(如元学习或离线RL)。评估指标也相应不同:前者关注最终得分,后者则应关注学习曲线、鲁棒性和迁移性能。
论文通过两个简单的实验展示了混淆这两种设定带来的问题。第一个实验在一个确定性的导航任务中,一个利用环境确定性的规划算法在模拟器中取得了完美分数,但当引入随机性(模拟真实世界的噪声)时,该算法彻底失败。第二个实验在一个随机转移动力学环境中,一个允许重置的算法通过反复尝试特定状态获得了高分,但在禁止重置的条件下表现与随机策略无异。这些实验清晰地表明,在模拟器中表现优异的算法未必适合真实部署。
作者指出,这种混淆不仅误导了研究结论,还可能导致资源浪费和错误的研究方向。他们呼吁研究社区在每篇论文中明确声明模拟器的使用目的,并建立针对每种场景的标准实验协议。例如,可以要求报告在模拟器上的性能时,同时说明是否利用了可重置性、确定性等特性。此外,还需开发新的基准测试,专门用于区分这两种用法。该论文已被ICML 2026接收,预计将引发关于强化学习实验方法的广泛讨论,推动领域向更加严谨和可复现的方向发展。