Anchor:緩解智慧體基準生成中的工件漂移
AI智慧體正開始完成有價值的長期業務運營任務,但企業工作的訓練和評估環境在真實性、可驗證性和規模之間難以平衡。環境與任務建立經常遭受一種稱為“工件漂移”的失敗模式:當指令、環境、預測器和驗證器由鬆散耦合的過程建立時,它們經常對任務要求產生分歧,導致環境不可解、可獎勵篡改或不一致。本文提出Anchor,一種將領域專家的業務流程規範形式化為約束最佳化程式的任務生成管道。透過單個引數化規範,管道聯合生成自然語言指令、環境配置、求解器認證的真實解決方案和基於狀態的驗證器。透過改變引數,可產生具有可控難度和已知最優解的新任務,生成僅依賴最終狀態業務正確性的與框架無關的環境。作者應用Anchor建立了ERP-Bench,一個包含300個長期任務的基準測試,涵蓋生產級ERP系統中的採購和製造工作流。實驗發現前沿模型在26.1%的試驗中滿足顯式任務約束,但僅17.4%達到完全最優解。總體而言,Anchor和ERP-Bench為構建可審計的評估環境提供了具體方案,用於評估具有經濟價值的智慧體工作。
文章情報
要點
- 提出“工件漂移”概念,指任務建立過程中指令、環境、預測器和驗證器不一致導致的基準問題。
- Anchor管道透過約束最佳化程式從單一引數化規範聯合生成指令、環境、解和驗證器。
- 基於Anchor構建的ERP-Bench基準包含300個長期任務,覆蓋ERP系統的採購和製造流程。
- 前沿模型僅17.4%達到完全最優解,表明現有AI在處理複雜業務任務時仍有顯著提升空間。
為什麼重要
這條新聞值得關注,因為提出“工件漂移”概念,指任務建立過程中指令、環境、預測器和驗證器不一致導致的基準問題。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
AI智慧體(AI Agent)正逐漸展現出完成具有經濟價值的長期業務操作任務的能力,從採購訂單處理到製造流程最佳化,這些任務通常需要多個步驟的推理和執行。然而,為這類企業級工作設計訓練和評估環境仍然面臨巨大挑戰:如何在真實性、可驗證性和可擴充套件性之間取得平衡?一個常見且被忽視的失敗模式是“工件漂移”(artifact drift)。工件漂移發生在任務建立過程中,當指令、環境、預測器(oracle)和驗證器由鬆散耦合的流程分別生成時,它們對任務要求往往不一致,導致基準測試出現不可解、可被獎勵駭客利用或自相矛盾的問題。這種不一致性嚴重損害了基準測試的可靠性和有效性。
為了應對這一挑戰,來自學術界和工業界的研究人員提出了Anchor系統。Anchor是一個系統化的任務生成管道,其核心思想是將領域專家對業務流程的規範形式化為約束最佳化程式。透過一個引數化的規範,該管道能夠同時生成四個關鍵元件:自然語言指令、環境配置、由求解器保證正確性的標準答案(ground-truth solution)以及基於狀態的驗證器。這意味著,只需調整引數,就能建立出難度可控、最優解已知的新任務。更重要的是,所生成的環境與具體的評估框架無關,獎勵訊號完全基於最終狀態的業務正確性,從而避免了獎勵駭客和任務不一致的問題。
為了驗證Anchor的有效性,研究團隊將其應用於企業資源規劃(ERP)領域,構建了名為ERP-Bench的基準測試集。ERP-Bench包含300個長期任務,覆蓋採購和製造工作流,執行在一個生產級的ERP系統之上。實驗結果表明,生成引數能夠預測任務的實際難度。在對前沿AI模型(如大型語言模型)的測試中,模型在26.1%的試驗中滿足了顯式的任務約束,但只有17.4%的試驗找到了完全最優的解決方案。這一結果揭示了當前模型在處理複雜、多步驟業務邏輯時的顯著侷限性。
總之,Anchor和ERP-Bench提供了一種具體的方法來構建可審計的評估環境,用於衡量AI智慧體在經濟價值工作上的表現。該方案不僅保證了基準的一致性和可靠性,還為後續研究提供了可擴充套件的框架。作者已公開了任務生成器和ERP-Bench資料集,以期推動該領域的進一步發展。此研究已被RLEval '26(ACM AI與智慧體系統會議研討會)接收。