記住,不要重讀:面向令牌高效自主實驗的有狀態ReAct智慧體
該研究將自主實驗模式重構為基於LangGraph的有狀態ReAct智慧體,透過持久化狀態避免每次迭代重建上下文,在超引數調優和程式碼最佳化任務中分別減少90%和52%的令牌消耗,同時保持最佳化質量。
近日,一篇題為《記住,不要重讀:面向令牌高效自主實驗的有狀態ReAct智慧體》的論文(arXiv:2606.14945)在機器學習領域引起了廣泛關注。該論文由Faramarz Jabbarvaziri撰寫,於2026年6月12日提交至arXiv,屬於機器學習(cs.LG)類別。論文針對自主實驗(autoresearch)模式中的令牌消耗問題提出了一個創新的解決方案。
傳統的自主實驗模式依賴大語言模型(LLM)反覆修改程式碼以最佳化某個目標指標。然而,這種無狀態設計每次迭代都需要從零開始重建實驗上下文,導致每次迭代的令牌成本為O(n),總成本達到O(n²)。隨著迭代次數的增加,這一成本變得難以承受。為了解決這一瓶頸,作者將模式重構為基於LangGraph的有狀態ReAct智慧體。該智慧體透過型別化的持久化狀態攜帶實驗歷史,並利用工具呼叫介面在不同迭代之間傳遞資訊,從而將每次迭代的令牌成本降低至O(1)。
研究團隊在兩個典型的基準任務上評估了該方法的效能。第一個任務是超引數調優,共進行15次迭代,每次迭代的觀察資料量較小。在該任務中,有狀態智慧體僅消耗2,492個令牌,而無狀態方法消耗24,465個,節省了90%的令牌。第二個任務是程式碼效能最佳化,共進行40次迭代,每次迭代包含完整的原始碼和基準測試結果,資料量較大。在該任務中,有狀態智慧體消耗627K個令牌,而無狀態方法消耗1,275K個,節省了52%的令牌。更重要的是,兩種方法在最佳化質量上表現相當,說明有狀態設計並未犧牲效能。
這種令牌削減是結構性的:無狀態智慧體每次迭代需要重新讀取全部歷史,成本隨迭代線性增長;而有狀態智慧體只需在固定大小的對話視窗內操作,成本恆定。論文詳細描述了架構的各個組成部分,包括狀態設計、工具介面和對話管理,使從業者能夠將其應用到自己的自主實驗工作流中。這一成果對於需要大量迭代最佳化的領域(如機器學習模型調優和演算法效能改進)具有重要價值,有望顯著降低計算成本並提高實驗效率。