AI News HubLIVE
站内改写

多轮文本到SQL的内存架构:基准测试与实证研究

该研究引入EnterpriseMem-Bench,一个多轮Text-to-SQL基准测试,包含300个会话和1400轮查询。评估五种前沿模型发现:无状态模型在第三轮准确率归零;内存复杂度不单调提升性能,工作内存占主导;Claude Sonnet 4.6在SEC EDGAR上出现代际退化;推理模式下Claude错误分布变为单模态。

文章情报

工程师进阶

要点

  • EnterpriseMem-Bench是多轮Text-to-SQL基准测试,覆盖三个企业领域。
  • 无状态模型在第三轮执行准确率降为零。
  • 工作内存是性能主导因素,额外组件效果因模型和数据集而异。
  • Claude Sonnet 4.6在SEC EDGAR上比Sonnet 4.5差17-33个百分点。

为什么重要

这条新闻值得关注,因为EnterpriseMem-Bench是多轮Text-to-SQL基准测试,覆盖三个企业领域。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

多轮文本到SQL(Text-to-SQL)是企业数据分析的核心任务,它允许用户通过自然语言与数据库交互,从而降低数据访问门槛。然而,现有评估大多集中在单轮场景,忽略了实际应用中的连续查询需求。来自摩根大通LLM Suite工程团队的研究人员引入了EnterpriseMem-Bench,这是一个专门为多轮Text-to-SQL设计的基准测试,包含300个会话和1400轮查询,覆盖三个企业领域:BIRD金融、SEC EDGAR和Northwind。该基准测试提供了确定性真实标签和每轮内存关键标注,使得研究人员能够精确评估内存机制对多轮查询的影响。

研究评估了五种前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6和Opus 4.6——在五种内存条件下进行三轮消融实验,独立隔离工作内存窗口大小、情节性检索和语义增强的影响。所有Claude模型均在扩展思维模式下评估,以与GPT推理模型保持对等。研究还提出了内存效益评分(MBS)作为每轮诊断指标。

四个主要发现引人注目:首先,无状态多轮Text-to-SQL在第三轮时所有五个模型的执行准确率均降至零,即使在使用推理能力的情况下也是如此。这表明简单的无状态方法无法胜任多轮任务。其次,内存架构复杂性并不会单调提高准确率——工作内存占主导,而额外组件会产生从+14到-16个百分点不等的模型和数据集依赖效应。第三,Claude Sonnet 4.6在SEC EDGAR上的表现比Sonnet 4.5差17-33个百分点,这是一种持续存在的代际退化,即使在推理模式下也未改善。第四,在推理模式下,Claude的错误分布变为单模态——每一轮非正确回答都是错误结果,而非因无法回答而放弃。

研究团队已公开发布基准测试、代理和评估代码,为后续研究提供了重要资源。这项研究不仅揭示了当前模型的局限性,也为多轮Text-to-SQL系统的内存架构设计提供了指导。