AI News HubLIVE
站內改寫1 分鐘閱讀

超越下一個詞預測:基於RLVR的Atlassian工作流工具使用智慧體概念驗證

本研究探索使用可驗證獎勵的強化學習(RLVR)在特定企業SaaS工作流中訓練小語言模型,以解決傳統下一個詞預測的侷限性。在模擬Jira和Confluence API的五種合成環境中,RL訓練的模型在四個非退化場景中平均獎勵從0.35-0.92提升至0.95-1.00,尤其是在Confluence頁面建立任務中從0.35提升至1.00。但手動設計可驗證獎勵難以擴充套件,且存在獎勵飽和問題。

來源arXiv AI作者: Karthikeya Aditya Vissa, Sankalp Mane, Ananya Mantravadi, Harshit Rajgarhia, Abhishek Mukherji

大型語言模型(LLM)通常透過預測下一個詞進行訓練,但在需要精確呼叫API的企業級SaaS工作流中表現不佳。例如,在Jira或Confluence等平臺上,成功操作要求按正確順序呼叫端點並傳遞正確的巢狀引數。傳統的下一個詞預測模型常出現沉默失敗——遺漏必需欄位、虛構工具或過早停止。

針對這一目標不匹配問題,來自研究團隊的一篇新論文提出使用可驗證獎勵的強化學習(RLVR)直接針對目標環境進行最佳化。作為概念驗證,他們構建了五個模擬Jira REST v3和Confluence v2 API的合成環境,獎勵完全基於工具呼叫軌跡計算,無需即時API、學習型評判者或人工標註。

實驗使用Qwen3-1.7B和Qwen3.5-4B模型,在相同的檢查器驅動GRPO訓練。結果顯示,在四個非退化獎勵場景中,RL訓練的策略將平均獎勵從4B基線範圍的0.35-0.92提升至0.95-1.00,其中最大增長出現在Confluence頁面建立任務(從0.35躍升到1.00)。這充分表明RLVR在小模型上能夠有效糾正工具使用中的錯誤,使得模型在特定API呼叫任務上達到近乎完美的表現。

然而,論文也指出了兩個關鍵侷限。首先,手動設計可驗證獎勵難以擴充套件到更多端點,因為每個新端點都需要定製化獎勵函式,這在實際部署中可能成為瓶頸。其次,在五個場景之一(工單轉換)中,獎勵函式已經飽和,即使沒有RL訓練,基礎模型也已達到最高分,這意味著RLVR在該場景中並未帶來額外收益。這些發現表明,雖然RLVR在小規模專用場景中前景廣闊,但走向實際部署仍需解決可擴充套件性和獎勵設計問題。論文作者將其定位為面向小眾企業API的結果最佳化小模型的初步步驟,並提醒讀者需權衡這些侷限性。