2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 15:52 UTC+8

AgentOdyssey：为测试时持续学习代理生成的开放式长视距文本游戏

AgentOdyssey 是一个新颖的评估框架，通过程序化生成开放式文本游戏来测试代理在持续学习环境中的能力。该框架挑战了传统机器学习假设，将学习与推理交织在整个部署过程中，并评估代理的世界知识获取、情景记忆、探索能力、动作多样性和模型成本。实验表明，即使最强的代理也远低于人类水平，其中短期记忆机制能显著提升性能。

来源arXiv Computational Linguistics作者: Zheyuan Zhang, Zehao Wen, Alvin Zhang, Andrew Wang, Jianwen Xie, Daniel Khashabi, Tianmin Shu

近年来，人工智能代理在静态环境中的表现取得了显著进展，但它们在现实世界中的持续学习能力仍然有限。为了填补这一空白，研究人员提出了 AgentOdyssey，这是一个全新的评估框架，旨在通过程序化生成的开放式文本游戏来测试代理在测试时持续学习的能力。该框架由 Zheyuan Zhang 等七位作者共同开发，并于 2026 年 5 月 29 日提交至 arXiv。

AgentOdyssey 的核心创新在于打破了传统机器学习中“测试时不学习”的假设。在传统的评估范式中，代理在训练后即被固定，无法在测试阶段获取新知识或技能。而 AgentOdyssey 将代理置于一个连续的、长视距的环境中，要求它们在部署过程中同时进行学习和推理。这意味着代理必须能够有效探索、获取新的世界知识和技能、保留相关的经验记忆，并规划长期行动。

为了实现这一目标，AgentOdyssey 自动生成包含丰富实体、动态世界规则和长期任务的文本游戏。这些游戏不仅规模庞大，而且结构多变，从而全面挑战代理的适应能力。评估体系不仅关注任务完成进度，还提供了多维度的诊断测试，包括世界知识获取、情景记忆、对象与动作探索、动作多样性以及模型开销等。

在实验中，研究团队测试了多种代理范式，包括不同大小的基础模型（如 GPT-3.5 和 GPT-4）以及带有短期记忆的变体。结果显示，尽管更强的基座模型能带来性能提升，但即使是表现最佳的代理，其整体性能也远低于人类水平，存在巨大的改进空间。特别值得注意的是，短期记忆机制在多个代理范式下都表现出显著的促进作用，表明它可能是实现测试时持续学习的关键组件。

AgentOdyssey 的提出为评估和设计具有持续学习能力的代理提供了标准化的平台。它揭示了当前代理在探索效率、知识记忆和长期规划等方面的根本性限制，并为未来研究指明了方向——例如如何更有效地整合记忆与推理机制。随着该框架的公开，研究者可以生成自定义的测试环境，从而推动该领域的快速发展。