2026-07-01 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-07-01 17:09 UTC+9

結果報酬モデルによるText-to-SQLのテスト時検証

本研究では、Text-to-SQLのテスト時検証において、学習された意味的スコアリング関数としてOutcome Reward Models（ORM）を提案します。GradeSQLフレームワークは、自動候補生成と実行ベースのラベリングによりORMトレーニングを自動化し、手動アノテーションを不要にします。BIRDで最大4.33%、Spiderで2.10%の改善を示し、複雑なクエリでより大きな効果を発揮します。

ソースarXiv Computational Linguistics著者: Mattia Tritto, Giuseppe Farano, Dario Di Palma, Gaetano Rossiello, Fedelucio Narducci, Dharmashankar Subramanian, Tommaso Di Noia

構造化推論タスクであるText-to-SQLにおいて、大規模言語モデルの推論時の信頼性向上は中心的な課題です。一般的なテスト時推論戦略（Best-of-Nサンプリングや多数決）は、実行成功や出力頻度などのヒューリスティック信号に依存しており、候補出力間の意味的識別が限られています。本研究では、Outcome Reward Models（ORM）を学習された意味的スコアリング関数として、Text-to-SQLのテスト時検証に適用します。ORMはこれまでテスト時スケーリングやアライメントに利用されてきましたが、構造化クエリ生成への応用は未開拓でした。

私たちはGradeSQLを導入します。これは、自動候補生成と実行ベースのラベリングによりタスク固有のORMを訓練するスケーラブルなフレームワークで、手動アノテーションなしで検証器の訓練を可能にします。GradeSQLでは、まず複数のベースLLMを使用して多数の候補SQLクエリを生成し、実際のデータベースで実行して結果を期待出力と比較することでラベルを生成します。これにより、ORMは候補クエリの正しさを予測することを学習します。ORMを検証駆動のBest-of-Nパイプラインに統合し、CodeLlama、StarCoder、DeepSeek-Coderなど複数のオープンソースLLMファミリを使用してBIRDおよびSpiderベンチマークで評価しました。ORMベースの選択は、実行ベースのBest-of-Nや多数決を一貫して上回り、BIRDで最大4.33%、Spiderで2.10%の向上を達成しました。さらに、ORMはより大きな候補セットで効果的にスケールし、候補数が5から50に増えるにつれて性能が向上し続ける一方、実行ベースの手法は頭打ちになりました。また、複雑なクエリ（複数テーブル結合やサブクエリを含む）においてORMはより強い改善を示し、単なる実行成功ではなく意味的正しさを捉えていることが示唆されました。

全体として、我々の結果は、ORMベースの検証がText-to-SQLのヒューリスティックなテスト時選択戦略に代わる、シンプルで効果的かつスケーラブルな代替手段を提供することを示しています。コード、データセット、モデルは公開されています。本研究成果はACL 2026のSURGeLLMワークショップ（米国サンディエゴ）で発表予定です。今後の方向性として、他の構造化推論タスクへのORMの適用や、プロセス報酬モデルとの組み合わせによるより詳細なフィードバックの提供が考えられます。