多輪文本到SQL的內存架構:基準測試與實證研究
該研究引入EnterpriseMem-Bench,一個多輪Text-to-SQL基準測試,包含300個會話和1400輪查詢。評估五種前沿模型發現:無狀態模型在第三輪準確率歸零;內存複雜度不單調提升性能,工作內存佔主導;Claude Sonnet 4.6在SEC EDGAR上出現代際退化;推理模式下Claude錯誤分佈變為單模態。
文章情報
要點
- EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
- 無狀態模型在第三輪執行準確率降為零。
- 工作內存是性能主導因素,額外組件效果因模型和數據集而異。
- Claude Sonnet 4.6在SEC EDGAR上比Sonnet 4.5差17-33個百分點。
為甚麼重要
這條新聞值得關注,因為EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
多輪文本到SQL(Text-to-SQL)是企業數據分析的核心任務,它允許用户通過自然語言與數據庫交互,從而降低數據訪問門檻。然而,現有評估大多集中在單輪場景,忽略了實際應用中的連續查詢需求。來自摩根大通LLM Suite工程團隊的研究人員引入了EnterpriseMem-Bench,這是一個專門為多輪Text-to-SQL設計的基準測試,包含300個會話和1400輪查詢,覆蓋三個企業領域:BIRD金融、SEC EDGAR和Northwind。該基準測試提供了確定性真實標籤和每輪內存關鍵標註,使得研究人員能夠精確評估內存機制對多輪查詢的影響。
研究評估了五種前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6和Opus 4.6——在五種內存條件下進行三輪消融實驗,獨立隔離工作內存窗口大小、情節性檢索和語義增強的影響。所有Claude模型均在擴展思維模式下評估,以與GPT推理模型保持對等。研究還提出了內存效益評分(MBS)作為每輪診斷指標。
四個主要發現引人注目:首先,無狀態多輪Text-to-SQL在第三輪時所有五個模型的執行準確率均降至零,即使在使用推理能力的情況下也是如此。這表明簡單的無狀態方法無法勝任多輪任務。其次,內存架構複雜性並不會單調提高準確率——工作內存佔主導,而額外組件會產生從+14到-16個百分點不等的模型和數據集依賴效應。第三,Claude Sonnet 4.6在SEC EDGAR上的表現比Sonnet 4.5差17-33個百分點,這是一種持續存在的代際退化,即使在推理模式下也未改善。第四,在推理模式下,Claude的錯誤分佈變為單模態——每一輪非正確回答都是錯誤結果,而非因無法回答而放棄。
研究團隊已公開發布基準測試、代理和評估代碼,為後續研究提供了重要資源。這項研究不僅揭示了當前模型的侷限性,也為多輪Text-to-SQL系統的內存架構設計提供了指導。