透過結果獎勵模型實現文本到SQL的測試時驗證
本研究提出Outcome Reward Models (ORMs)作為學習語義評分函式,用於Text-to-SQL的測試時驗證。引入GradeSQL框架,透過自動化候選生成和執行標籤訓練ORMs,無需手動標註。在BIRD和Spider基準測試中,ORM選擇優於執行優先Best-of-N和多數投票,分別提升4.33%和2.10%。實驗表明ORM可擴充套件且對複雜查詢改進更大。
在結構化推理任務如Text-to-SQL中,提高大型語言模型推理時的可靠性是一個核心挑戰。常見的測試時推理策略,如Best-of-N取樣和多數投票,依賴於執行成功或輸出頻率等啟發式訊號,這些訊號在候選輸出之間提供的語義區分能力有限。在這項工作中,我們研究了Outcome Reward Models (ORMs)作為學習語義評分函式,用於Text-to-SQL的測試時驗證。雖然ORMs之前已被探索用於測試時縮放和對齊,但其在結構化查詢生成中的應用仍未被充分研究。
我們引入了GradeSQL,這是一個可擴充套件的框架,透過自動化候選生成和執行標籤來訓練特定任務的ORMs,從而無需手動標註即可訓練驗證器。具體來說,GradeSQL首先使用一組基礎LLM生成多個候選SQL查詢,然後透過在實際資料庫上執行這些查詢並比較結果與預期輸出來生成標籤。這樣,ORMs可以學習預測候選查詢的正確性,而無需人工標註。我們將ORMs整合到驗證驅動的Best-of-N流水線中,並在BIRD和Spider基準測試上評估了多種開源LLM家族,包括CodeLlama、StarCoder和DeepSeek-Coder等。ORM-based選擇一致優於執行優先的Best-of-N和多數投票,在BIRD上獲得高達4.33%的提升,在Spider上獲得2.10%的提升。我們還展示了ORMs在更大的候選集中有效擴充套件:當候選數從5增加到50時,ORM選擇持續改善,而執行優先方法的收益遞減。此外,ORM在複雜查詢(如涉及多表連線和子查詢)上產生了更強的改進,表明其能捕捉語義正確性而不僅僅是執行成功。
總體而言,我們的結果表明,ORM-based驗證為Text-to-SQL提供了一種簡單、有效且可擴充套件的替代方案,以替代啟發式測試時選擇策略。程式碼、資料集和模型已公開發布。這一工作已被ACL 2026的SURGeLLM研討會接受,將於美國聖地亞哥舉行。未來的工作可以探索ORM在其他結構化推理任務中的應用,以及將其與過程獎勵模型結合以提供更細粒度的反饋。