2026-06-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

MindGames Arena泛化赛道：In2AI解决方案采用延迟逐步奖励归因

本文提出了一种延迟逐步奖励归因方法，结合资格门控、异步rollout生成等，使8B参数开源模型在NeurIPS 2025 MindGames Arena基准测试中击败GPT-5等大型系统，赢得双赛道第一。

来源arXiv AI作者: Aliaksei Korshuk, Alexander Buyantuev, Ilya Makarov

在多智能体战略交互任务中，语言模型智能体的训练面临重大挑战：每个动作的质量可能取决于从未发生的未来事件、违反游戏规则的移动或其他玩家的决策。标准强化学习假设每一步都可以分配奖励，但这一假设在结果跨时间和智能体交织的场景中失效。

本研究引入了一种延迟逐步奖励归因方法，结合资格门控机制，构建了完整的回合生命周期和后处理流水线：仅在回合结束时计算奖励，根据任务特定语义将奖励传播回原始步骤，并排除缺乏有效依赖信息的步骤。此外，通过vLLM的连续批处理实现异步rollout生成、基于课程的对手采样以及多层级分层批次构建，该方法在多智能体环境中实现了稳定且样本高效的强化学习训练。

在NeurIPS 2025的MindGames Arena基准测试中，一个仅有80亿参数的开源模型经过该方法训练后，在直接对抗中匹配甚至超越了包括GPT-5在内的显著更大的专有系统，并在开放赛道（无限制）和高效赛道（≤8B参数）均获得第一名。