2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

多轮文本到SQL的内存架构：基准测试与实证研究

该研究引入EnterpriseMem-Bench，一个多轮Text-to-SQL基准测试，包含300个会话和1400轮查询。评估五种前沿模型发现：无状态模型在第三轮准确率归零；内存复杂度不单调提升性能，工作内存占主导；Claude Sonnet 4.6在SEC EDGAR上出现代际退化；推理模式下Claude错误分布变为单模态。

来源arXiv Computational Linguistics作者: Ravi Kumar Tummalapenta, Suman Addanki

多轮文本到SQL（Text-to-SQL）是企业数据分析的核心任务，它允许用户通过自然语言与数据库交互，从而降低数据访问门槛。然而，现有评估大多集中在单轮场景，忽略了实际应用中的连续查询需求。来自摩根大通LLM Suite工程团队的研究人员引入了EnterpriseMem-Bench，这是一个专门为多轮Text-to-SQL设计的基准测试，包含300个会话和1400轮查询，覆盖三个企业领域：BIRD金融、SEC EDGAR和Northwind。该基准测试提供了确定性真实标签和每轮内存关键标注，使得研究人员能够精确评估内存机制对多轮查询的影响。

研究评估了五种前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6和Opus 4.6——在五种内存条件下进行三轮消融实验，独立隔离工作内存窗口大小、情节性检索和语义增强的影响。所有Claude模型均在扩展思维模式下评估，以与GPT推理模型保持对等。研究还提出了内存效益评分（MBS）作为每轮诊断指标。

四个主要发现引人注目：首先，无状态多轮Text-to-SQL在第三轮时所有五个模型的执行准确率均降至零，即使在使用推理能力的情况下也是如此。这表明简单的无状态方法无法胜任多轮任务。其次，内存架构复杂性并不会单调提高准确率——工作内存占主导，而额外组件会产生从+14到-16个百分点不等的模型和数据集依赖效应。第三，Claude Sonnet 4.6在SEC EDGAR上的表现比Sonnet 4.5差17-33个百分点，这是一种持续存在的代际退化，即使在推理模式下也未改善。第四，在推理模式下，Claude的错误分布变为单模态——每一轮非正确回答都是错误结果，而非因无法回答而放弃。

研究团队已公开发布基准测试、代理和评估代码，为后续研究提供了重要资源。这项研究不仅揭示了当前模型的局限性，也为多轮Text-to-SQL系统的内存架构设计提供了指导。