2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

記住，不要重讀：面向令牌高效自主實驗的有狀態ReAct智慧體

該研究將自主實驗模式重構為基於LangGraph的有狀態ReAct智慧體，透過持久化狀態避免每次迭代重建上下文，在超引數調優和程式碼最佳化任務中分別減少90%和52%的令牌消耗，同時保持最佳化質量。

來源arXiv Machine Learning作者: Faramarz Jabbarvaziri

近日，一篇題為《記住，不要重讀：面向令牌高效自主實驗的有狀態ReAct智慧體》的論文（arXiv:2606.14945）在機器學習領域引起了廣泛關注。該論文由Faramarz Jabbarvaziri撰寫，於2026年6月12日提交至arXiv，屬於機器學習（cs.LG）類別。論文針對自主實驗（autoresearch）模式中的令牌消耗問題提出了一個創新的解決方案。

傳統的自主實驗模式依賴大語言模型（LLM）反覆修改程式碼以最佳化某個目標指標。然而，這種無狀態設計每次迭代都需要從零開始重建實驗上下文，導致每次迭代的令牌成本為O(n)，總成本達到O(n²)。隨著迭代次數的增加，這一成本變得難以承受。為了解決這一瓶頸，作者將模式重構為基於LangGraph的有狀態ReAct智慧體。該智慧體透過型別化的持久化狀態攜帶實驗歷史，並利用工具呼叫介面在不同迭代之間傳遞資訊，從而將每次迭代的令牌成本降低至O(1)。

研究團隊在兩個典型的基準任務上評估了該方法的效能。第一個任務是超引數調優，共進行15次迭代，每次迭代的觀察資料量較小。在該任務中，有狀態智慧體僅消耗2,492個令牌，而無狀態方法消耗24,465個，節省了90%的令牌。第二個任務是程式碼效能最佳化，共進行40次迭代，每次迭代包含完整的原始碼和基準測試結果，資料量較大。在該任務中，有狀態智慧體消耗627K個令牌，而無狀態方法消耗1,275K個，節省了52%的令牌。更重要的是，兩種方法在最佳化質量上表現相當，說明有狀態設計並未犧牲效能。

這種令牌削減是結構性的：無狀態智慧體每次迭代需要重新讀取全部歷史，成本隨迭代線性增長；而有狀態智慧體只需在固定大小的對話視窗內操作，成本恆定。論文詳細描述了架構的各個組成部分，包括狀態設計、工具介面和對話管理，使從業者能夠將其應用到自己的自主實驗工作流中。這一成果對於需要大量迭代最佳化的領域（如機器學習模型調優和演算法效能改進）具有重要價值，有望顯著降低計算成本並提高實驗效率。