2026-07-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-03 15:58 UTC+8

超越下一個詞預測：基於RLVR的Atlassian工作流工具使用智慧體概念驗證

本研究探索使用可驗證獎勵的強化學習（RLVR）在特定企業SaaS工作流中訓練小語言模型，以解決傳統下一個詞預測的侷限性。在模擬Jira和Confluence API的五種合成環境中，RL訓練的模型在四個非退化場景中平均獎勵從0.35-0.92提升至0.95-1.00，尤其是在Confluence頁面建立任務中從0.35提升至1.00。但手動設計可驗證獎勵難以擴充套件，且存在獎勵飽和問題。

來源arXiv AI作者: Karthikeya Aditya Vissa, Sankalp Mane, Ananya Mantravadi, Harshit Rajgarhia, Abhishek Mukherji

大型語言模型（LLM）通常透過預測下一個詞進行訓練，但在需要精確呼叫API的企業級SaaS工作流中表現不佳。例如，在Jira或Confluence等平臺上，成功操作要求按正確順序呼叫端點並傳遞正確的巢狀引數。傳統的下一個詞預測模型常出現沉默失敗——遺漏必需欄位、虛構工具或過早停止。

針對這一目標不匹配問題，來自研究團隊的一篇新論文提出使用可驗證獎勵的強化學習（RLVR）直接針對目標環境進行最佳化。作為概念驗證，他們構建了五個模擬Jira REST v3和Confluence v2 API的合成環境，獎勵完全基於工具呼叫軌跡計算，無需即時API、學習型評判者或人工標註。

實驗使用Qwen3-1.7B和Qwen3.5-4B模型，在相同的檢查器驅動GRPO訓練。結果顯示，在四個非退化獎勵場景中，RL訓練的策略將平均獎勵從4B基線範圍的0.35-0.92提升至0.95-1.00，其中最大增長出現在Confluence頁面建立任務（從0.35躍升到1.00）。這充分表明RLVR在小模型上能夠有效糾正工具使用中的錯誤，使得模型在特定API呼叫任務上達到近乎完美的表現。

然而，論文也指出了兩個關鍵侷限。首先，手動設計可驗證獎勵難以擴充套件到更多端點，因為每個新端點都需要定製化獎勵函式，這在實際部署中可能成為瓶頸。其次，在五個場景之一（工單轉換）中，獎勵函式已經飽和，即使沒有RL訓練，基礎模型也已達到最高分，這意味著RLVR在該場景中並未帶來額外收益。這些發現表明，雖然RLVR在小規模專用場景中前景廣闊，但走向實際部署仍需解決可擴充套件性和獎勵設計問題。論文作者將其定位為面向小眾企業API的結果最佳化小模型的初步步驟，並提醒讀者需權衡這些侷限性。