2026-06-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 15:52 UTC+8

AgentOdyssey：為測試時持續學習代理生成的開放式長視距文本遊戲

AgentOdyssey 是一個新穎的評估框架，透過程式化生成開放式文本遊戲來測試代理在持續學習環境中的能力。該框架挑戰了傳統機器學習假設，將學習與推理交織在整個部署過程中，並評估代理的世界知識獲取、情景記憶、探索能力、動作多樣性和模型成本。實驗表明，即使最強的代理也遠低於人類水平，其中短期記憶機制能顯著提升效能。

來源arXiv Computational Linguistics作者: Zheyuan Zhang, Zehao Wen, Alvin Zhang, Andrew Wang, Jianwen Xie, Daniel Khashabi, Tianmin Shu

近年來，人工智慧代理在靜態環境中的表現取得了顯著進展，但它們在現實世界中的持續學習能力仍然有限。為了填補這一空白，研究人員提出了 AgentOdyssey，這是一個全新的評估框架，旨在透過程式化生成的開放式文本遊戲來測試代理在測試時持續學習的能力。該框架由 Zheyuan Zhang 等七位作者共同開發，並於 2026 年 5 月 29 日提交至 arXiv。

AgentOdyssey 的核心創新在於打破了傳統機器學習中“測試時不學習”的假設。在傳統的評估正規化中，代理在訓練後即被固定，無法在測試階段獲取新知識或技能。而 AgentOdyssey 將代理置於一個連續的、長視距的環境中，要求它們在部署過程中同時進行學習和推理。這意味著代理必須能夠有效探索、獲取新的世界知識和技能、保留相關的經驗記憶，並規劃長期行動。

為了實現這一目標，AgentOdyssey 自動生成包含豐富實體、動態世界規則和長期任務的文本遊戲。這些遊戲不僅規模龐大，而且結構多變，從而全面挑戰代理的適應能力。評估體系不僅關注任務完成進度，還提供了多維度的診斷測試，包括世界知識獲取、情景記憶、物件與動作探索、動作多樣性以及模型開銷等。

在實驗中，研究團隊測試了多種代理正規化，包括不同大小的基礎模型（如 GPT-3.5 和 GPT-4）以及帶有短期記憶的變體。結果顯示，儘管更強的基座模型能帶來效能提升，但即使是表現最佳的代理，其整體效能也遠低於人類水平，存在巨大的改進空間。特別值得注意的是，短期記憶機制在多個代理正規化下都表現出顯著的促進作用，表明它可能是實現測試時持續學習的關鍵元件。

AgentOdyssey 的提出為評估和設計具有持續學習能力的代理提供了標準化的平臺。它揭示了當前代理在探索效率、知識記憶和長期規劃等方面的根本性限制，併為未來研究指明瞭方向——例如如何更有效地整合記憶與推理機制。隨著該框架的公開，研究者可以生成自定義的測試環境，從而推動該領域的快速發展。