AI News HubLIVE
站内改写

マルチターンText-to-SQLのためのメモリアーキテクチャ:ベンチマークと実証研究

この研究では、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークEnterpriseMem-Benchを導入。5つの先端モデルを評価した結果、ステートレスモデルはターン3で精度がゼロに低下、メモリの複雑さは性能を単調に向上させずワーキングメモリが支配的、Claude Sonnet 4.6はSEC EDGARで世代的な後退、推論下ではClaudeのエラー分布が単一モードになることが明らかになった。

記事インテリジェンス

エンジニア上級

要点

  • EnterpriseMem-Benchは3つのエンタープライズドメインをカバーするマルチターンText-to-SQLベンチマーク。
  • ステートレスモデルはターン3で実行精度がゼロになる。
  • ワーキングメモリが性能の支配要因であり、追加コンポーネントは効果が混在する。
  • Claude Sonnet 4.6はSEC EDGARでSonnet 4.5より17-33pp劣る。

重要な理由

このニュースが重要なのは、EnterpriseMem-Benchは3つのエンタープライズドメインをカバーするマルチターンText-to-SQLベンチマークためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

マルチターンText-to-SQLはエンタープライズ分析の中核技術であり、自然言語によるデータベースクエリを連続的に実行することを可能にします。しかし、既存の評価は主にシングルターンに焦点を当てており、実際のユースケースにおける複数回の対話を反映していません。JPモルガン・チェースのLLM Suiteエンジニアリングチームは、このギャップを埋めるため、EnterpriseMem-Benchを開発しました。これは、BIRD金融、SEC EDGAR、Northwindの3つのエンタープライズドメインからプログラム的に構築された、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークです。各ターンには決定論的な正解とメモリ重要度のアノテーションが付与されています。

研究では、GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6、Opus 4.6の5つのフロンティアモデルを、5つのメモリ条件下で評価しました。これにより、ワーキングメモリウィンドウサイズ、エピソディック検索、意味的拡張の効果を独立して分離する3方向アブレーションが可能になりました。すべてのClaudeモデルは、GPT推論モデルとの比較可能性を保つため、拡張思考を有効にして評価されました。さらに、ターンごとの診断指標としてメモリベネフィットスコア(MBS)が導入されました。

主な発見は4つあります。第1に、ステートレスなマルチターンText-to-SQLは、5つのモデルすべてにおいてターン3までに実行精度がゼロに低下します。これは、推論モードでも同様です。第2に、メモリアーキテクチャの複雑さは精度を単調に向上させるわけではありません。ワーキングメモリが支配的な要因であり、追加のコンポーネントはモデルやデータセットに応じて+14から-16パーセントポイントの変動をもたらします。第3に、Claude Sonnet 4.6はSEC EDGARデータセットにおいて、Sonnet 4.5よりも17~33パーセントポイント低い性能を示しました。これは、推論モードでも持続する世代的な後退です。第4に、推論モードでは、Claudeのエラー分布が単一モードになります。つまり、正しくないターンはすべて間違った結果エラーであり、回答不能によるスキップではありません。

研究チームは、ベンチマーク、エージェント、評価コードを公開しており、今後の研究の基盤を提供しています。この研究は、現在のモデルの限界を明らかにし、マルチターンText-to-SQLシステムにおけるメモリアーキテクチャ設計の指針を示しています。