多輪文本到SQL的記憶體架構:基準測試與實證研究
該研究引入EnterpriseMem-Bench,一個多輪Text-to-SQL基準測試,包含300個會話和1400輪查詢。評估五種前沿模型發現:無狀態模型在第三輪準確率歸零;記憶體複雜度不單調提升效能,工作記憶體佔主導;Claude Sonnet 4.6在SEC EDGAR上出現代際退化;推理模式下Claude錯誤分佈變為單模態。
文章情報
要點
- EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
- 無狀態模型在第三輪執行準確率降為零。
- 工作記憶體是效能主導因素,額外元件效果因模型和資料集而異。
- Claude Sonnet 4.6在SEC EDGAR上比Sonnet 4.5差17-33個百分點。
為什麼重要
這條新聞值得關注,因為EnterpriseMem-Bench是多輪Text-to-SQL基準測試,覆蓋三個企業領域。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
多輪文本到SQL(Text-to-SQL)是企業資料分析的核心任務,它允許使用者透過自然語言與資料庫互動,從而降低資料訪問門檻。然而,現有評估大多集中在單輪場景,忽略了實際應用中的連續查詢需求。來自摩根大通LLM Suite工程團隊的研究人員引入了EnterpriseMem-Bench,這是一個專門為多輪Text-to-SQL設計的基準測試,包含300個會話和1400輪查詢,覆蓋三個企業領域:BIRD金融、SEC EDGAR和Northwind。該基準測試提供了確定性真實標籤和每輪記憶體關鍵標註,使得研究人員能夠精確評估記憶體機制對多輪查詢的影響。
研究評估了五種前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6和Opus 4.6——在五種記憶體條件下進行三輪消融實驗,獨立隔離工作記憶體視窗大小、情節性檢索和語義增強的影響。所有Claude模型均在擴充套件思維模式下評估,以與GPT推理模型保持對等。研究還提出了記憶體效益評分(MBS)作為每輪診斷指標。
四個主要發現引人注目:首先,無狀態多輪Text-to-SQL在第三輪時所有五個模型的執行準確率均降至零,即使在使用推理能力的情況下也是如此。這表明簡單的無狀態方法無法勝任多輪任務。其次,記憶體架構複雜性並不會單調提高準確率——工作記憶體佔主導,而額外元件會產生從+14到-16個百分點不等的模型和資料集依賴效應。第三,Claude Sonnet 4.6在SEC EDGAR上的表現比Sonnet 4.5差17-33個百分點,這是一種持續存在的代際退化,即使在推理模式下也未改善。第四,在推理模式下,Claude的錯誤分佈變為單模態——每一輪非正確回答都是錯誤結果,而非因無法回答而放棄。
研究團隊已公開發布基準測試、代理和評估程式碼,為後續研究提供了重要資源。這項研究不僅揭示了當前模型的侷限性,也為多輪Text-to-SQL系統的記憶體架構設計提供了指導。