2026-06-30 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 16:00 UTC+8

立场：强化学习研究者需要区分解决模拟器和将模拟器作为代理使用

本文是一篇立场论文，指出强化学习研究中有两种使用模拟器的方式：解决模拟器本身，以及将模拟器作为实际部署的代理。作者通过示例和实验表明，混淆这两种用法会导致误导性结论，并呼吁社区明确区分二者的使用方式。

来源arXiv Machine Learning作者: Matthew Vandergrift, Esraa Elelimy, Martha White

在强化学习（RL）研究中，模拟器被广泛用作评估和训练算法的工具。然而，一篇在ICML 2026上发表的立场论文指出，研究者们常常忽略了两种根本不同的模拟器使用方式：解决模拟器本身，以及将模拟器作为真实部署环境的一种代理。由Matthew Vandergrift等人撰写的论文强调，当研究者专注于在模拟器中取得高分时，往往会采用专为模拟器设计的解决方案，例如利用环境的确定性或可重置性，这些方法在真实部署环境中往往不适用。这样做实际上偏离了“学习在部署中决策”的原始目标。尽管研究如何高效求解模拟器本身也是一个有价值的方向，但它与将模拟器作为代理的研究在约束条件、算法选择和评估指标上有着本质区别。

具体来说，在求解模拟器的设定下，智能体可以无限制地访问环境，能够进行多次尝试、回放、或者重置到任意状态。这些“特权”使得许多算法（例如基于表格的规划或专用的搜索算法）能够取得高分，但在真实部署中却无法使用。相反，当把模拟器作为部署代理时，智能体必须像在真实世界中一样，仅从一次轨迹中学习，不能重置或获得额外回合。这种约束差异导致合适的算法不同：对于求解模拟器，追求最终性能最大化的算法（如进化策略）可能合适；而对于代理使用，则更需要关注样本效率和泛化能力的算法（如元学习或离线RL）。评估指标也相应不同：前者关注最终得分，后者则应关注学习曲线、鲁棒性和迁移性能。

论文通过两个简单的实验展示了混淆这两种设定带来的问题。第一个实验在一个确定性的导航任务中，一个利用环境确定性的规划算法在模拟器中取得了完美分数，但当引入随机性（模拟真实世界的噪声）时，该算法彻底失败。第二个实验在一个随机转移动力学环境中，一个允许重置的算法通过反复尝试特定状态获得了高分，但在禁止重置的条件下表现与随机策略无异。这些实验清晰地表明，在模拟器中表现优异的算法未必适合真实部署。

作者指出，这种混淆不仅误导了研究结论，还可能导致资源浪费和错误的研究方向。他们呼吁研究社区在每篇论文中明确声明模拟器的使用目的，并建立针对每种场景的标准实验协议。例如，可以要求报告在模拟器上的性能时，同时说明是否利用了可重置性、确定性等特性。此外，还需开发新的基准测试，专门用于区分这两种用法。该论文已被ICML 2026接收，预计将引发关于强化学习实验方法的广泛讨论，推动领域向更加严谨和可复现的方向发展。