2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:09 UTC+8

通过结果奖励模型实现文本到SQL的测试时验证

本研究提出Outcome Reward Models (ORMs)作为学习语义评分函数，用于Text-to-SQL的测试时验证。引入GradeSQL框架，通过自动化候选生成和执行标签训练ORMs，无需手动标注。在BIRD和Spider基准测试中，ORM选择优于执行优先Best-of-N和多数投票，分别提升4.33%和2.10%。实验表明ORM可扩展且对复杂查询改进更大。

来源arXiv Computational Linguistics作者: Mattia Tritto, Giuseppe Farano, Dario Di Palma, Gaetano Rossiello, Fedelucio Narducci, Dharmashankar Subramanian, Tommaso Di Noia

在结构化推理任务如Text-to-SQL中，提高大型语言模型推理时的可靠性是一个核心挑战。常见的测试时推理策略，如Best-of-N采样和多数投票，依赖于执行成功或输出频率等启发式信号，这些信号在候选输出之间提供的语义区分能力有限。在这项工作中，我们研究了Outcome Reward Models (ORMs)作为学习语义评分函数，用于Text-to-SQL的测试时验证。虽然ORMs之前已被探索用于测试时缩放和对齐，但其在结构化查询生成中的应用仍未被充分研究。

我们引入了GradeSQL，这是一个可扩展的框架，通过自动化候选生成和执行标签来训练特定任务的ORMs，从而无需手动标注即可训练验证器。具体来说，GradeSQL首先使用一组基础LLM生成多个候选SQL查询，然后通过在实际数据库上执行这些查询并比较结果与预期输出来生成标签。这样，ORMs可以学习预测候选查询的正确性，而无需人工标注。我们将ORMs集成到验证驱动的Best-of-N流水线中，并在BIRD和Spider基准测试上评估了多种开源LLM家族，包括CodeLlama、StarCoder和DeepSeek-Coder等。ORM-based选择一致优于执行优先的Best-of-N和多数投票，在BIRD上获得高达4.33%的提升，在Spider上获得2.10%的提升。我们还展示了ORMs在更大的候选集中有效扩展：当候选数从5增加到50时，ORM选择持续改善，而执行优先方法的收益递减。此外，ORM在复杂查询（如涉及多表连接和子查询）上产生了更强的改进，表明其能捕捉语义正确性而不仅仅是执行成功。

总体而言，我们的结果表明，ORM-based验证为Text-to-SQL提供了一种简单、有效且可扩展的替代方案，以替代启发式测试时选择策略。代码、数据集和模型已公开发布。这一工作已被ACL 2026的SURGeLLM研讨会接受，将于美国圣地亚哥举行。未来的工作可以探索ORM在其他结构化推理任务中的应用，以及将其与过程奖励模型结合以提供更细粒度的反馈。