低资源开源文本到SQL模型的知识蒸馏
本文提出一种知识感知的Text-to-SQL框架,通过构建任务特定的知识库(包括模式语义、缩写、业务逻辑和查询模式),并注入训练和推理过程,在低资源领域显著提升模型性能。实验在七个基准上验证了其对开源和闭源大语言模型的改进。
文章情报
工程师进阶
要点
- 针对低资源领域Text-to-SQL任务,现有方法难以生成语义正确的训练数据。
- 提出知识感知框架,利用知识库生成多样化的合成数据并增强推理。
- 在七个基准测试中,该方法显著提升了开源和闭源大语言模型在Text-to-SQL任务上的表现。
- 尤其适用于域特定数据库,提高了模型的泛化能力、鲁棒性和适应性。
为什么重要
这条新闻值得关注,因为针对低资源领域Text-to-SQL任务,现有方法难以生成语义正确的训练数据。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,一项关于低资源开源Text-to-SQL模型的研究在arXiv上发布。该研究由Tianhao Qiu等人完成,旨在解决自然语言转SQL查询任务在低资源场景下的难题。
在现实应用中,Text-to-SQL系统常面临高质量标注数据稀缺的困境,尤其对于特定领域的数据库。此外,模式定义模糊、缩写和不明確的业务逻辑也增加了任务难度。现有数据合成和提示技术虽能提升覆盖率,但往往无法生成与数据库约束对齐且语义正确的示例。
为此,研究者提出了一种知识感知的Text-to-SQL框架。该框架首先构建一个任务特定的知识库,包含模式语义、缩写、业务逻辑和查询模式等信息。然后,在训练阶段利用该知识库生成多样化且上下文相关的合成数据;在推理阶段,通过目标知识检索增强模型性能。
实验在七个通用和领域特定的基准数据集上进行。结果表明,该框架显著提升了多种开源和闭源大语言模型在Text-to-SQL任务中的表现,尤其在低资源领域设置下,模型的泛化能力、鲁棒性和适应性均得到改善。
该研究为解决低资源Text-to-SQL问题提供了新的思路,有望推动非技术用户对数据库的便捷访问。论文代码和数据已公开,供后续研究使用。