Anchor:緩解智能體基準生成中的工件漂移
AI智能體正開始完成有價值的長期業務運營任務,但企業工作的訓練和評估環境在真實性、可驗證性和規模之間難以平衡。環境與任務創建經常遭受一種稱為“工件漂移”的失敗模式:當指令、環境、預測器和驗證器由鬆散耦合的過程創建時,它們經常對任務要求產生分歧,導致環境不可解、可獎勵篡改或不一致。本文提出Anchor,一種將領域專家的業務流程規範形式化為約束優化程序的任務生成管道。通過單個參數化規範,管道聯合生成自然語言指令、環境配置、求解器認證的真實解決方案和基於狀態的驗證器。通過改變參數,可產生具有可控難度和已知最優解的新任務,生成僅依賴最終狀態業務正確性的與框架無關的環境。作者應用Anchor創建了ERP-Bench,一個包含300個長期任務的基準測試,涵蓋生產級ERP系統中的採購和製造工作流。實驗發現前沿模型在26.1%的試驗中滿足顯式任務約束,但僅17.4%達到完全最優解。總體而言,Anchor和ERP-Bench為構建可審計的評估環境提供了具體方案,用於評估具有經濟價值的智能體工作。
文章情報
要點
- 提出“工件漂移”概念,指任務創建過程中指令、環境、預測器和驗證器不一致導致的基準問題。
- Anchor管道通過約束優化程序從單一參數化規範聯合生成指令、環境、解和驗證器。
- 基於Anchor構建的ERP-Bench基準包含300個長期任務,覆蓋ERP系統的採購和製造流程。
- 前沿模型僅17.4%達到完全最優解,表明現有AI在處理複雜業務任務時仍有顯著提升空間。
為甚麼重要
這條新聞值得關注,因為提出“工件漂移”概念,指任務創建過程中指令、環境、預測器和驗證器不一致導致的基準問題。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
AI智能體(AI Agent)正逐漸展現出完成具有經濟價值的長期業務操作任務的能力,從採購訂單處理到製造流程優化,這些任務通常需要多個步驟的推理和執行。然而,為這類企業級工作設計訓練和評估環境仍然面臨巨大挑戰:如何在真實性、可驗證性和可擴展性之間取得平衡?一個常見且被忽視的失敗模式是“工件漂移”(artifact drift)。工件漂移發生在任務創建過程中,當指令、環境、預測器(oracle)和驗證器由鬆散耦合的流程分別生成時,它們對任務要求往往不一致,導致基準測試出現不可解、可被獎勵黑客利用或自相矛盾的問題。這種不一致性嚴重損害了基準測試的可靠性和有效性。
為了應對這一挑戰,來自學術界和工業界的研究人員提出了Anchor系統。Anchor是一個系統化的任務生成管道,其核心思想是將領域專家對業務流程的規範形式化為約束優化程序。通過一個參數化的規範,該管道能夠同時生成四個關鍵組件:自然語言指令、環境配置、由求解器保證正確性的標準答案(ground-truth solution)以及基於狀態的驗證器。這意味着,只需調整參數,就能創建出難度可控、最優解已知的新任務。更重要的是,所生成的環境與具體的評估框架無關,獎勵信號完全基於最終狀態的業務正確性,從而避免了獎勵黑客和任務不一致的問題。
為了驗證Anchor的有效性,研究團隊將其應用於企業資源規劃(ERP)領域,構建了名為ERP-Bench的基準測試集。ERP-Bench包含300個長期任務,覆蓋採購和製造工作流,運行在一個生產級的ERP系統之上。實驗結果表明,生成參數能夠預測任務的實際難度。在對前沿AI模型(如大型語言模型)的測試中,模型在26.1%的試驗中滿足了顯式的任務約束,但只有17.4%的試驗找到了完全最優的解決方案。這一結果揭示了當前模型在處理複雜、多步驟業務邏輯時的顯著侷限性。
總之,Anchor和ERP-Bench提供了一種具體的方法來構建可審計的評估環境,用於衡量AI智能體在經濟價值工作上的表現。該方案不僅保證了基準的一致性和可靠性,還為後續研究提供了可擴展的框架。作者已公開了任務生成器和ERP-Bench數據集,以期推動該領域的進一步發展。此研究已被RLEval '26(ACM AI與智能體系統會議研討會)接收。