2026-06-06 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

用于多表问答的合成对比推理

该研究构建了一个合成对比推理轨迹数据集，用于多表问答任务，并通过对比偏好优化（CPO）微调开源大语言模型，在MMQA基准上实现了9.7%-16.3%的绝对平均提升，最高提升达21个百分点。

来源arXiv AI作者: Ankit Pratap Singh, Xin Su, Phillip Howard

多表问答（Multi-table Q&A）是一项具有挑战性的自然语言处理任务，要求模型能够跨多个关系型数据库表检索相关证据、链接模式并执行组合推理。然而，现有的多表问答数据集通常只提供问题和最终答案，缺乏解释答案推导过程的推理监督信号，这限制了模型在复杂场景下的推理能力。为了填补这一空白，来自Ankit Pratap Singh等研究人员提出了一种基于合成对比推理轨迹的方法，针对MMQA基准构建了一个全新的数据集。

该研究的核心创新在于利用多种异构大语言模型（LLMs）生成经过验证的正向推理轨迹和合理的负向推理轨迹。正向轨迹代表了正确的推理路径，而负向轨迹则包含了常见的推理错误，从而构成对比偏好对。这些偏好对被用于对比偏好优化（Contrastive Preference Optimization, CPO）技术，以微调开源的大语言模型。实验中，作者选择了Qwen3-14B、Mistral-8B和Llama-3.1-8B三种模型进行测试。结果表明，与传统的问答监督微调（SFT）相比，CPO在MMQA基准上取得了绝对平均9.7%到16.3%的性能提升，其中最大提升幅度达到21个百分点。

进一步的消融实验揭示了异构正负轨迹生成器的重要性：使用单一的生成器会导致对比信号减弱，而异构生成器则能提供更丰富的对比信息，帮助模型更好地区分正确与错误的推理路径。此外，自动评估和人工评估均表明，生成的对比轨迹对在忠实度、连贯性和对比意义方面表现出色。这一方法不仅为多表问答任务提供了有效的推理监督手段，也为其他需要复杂推理能力的NLP任务提供了新的思路。随着开源模型的不断进步，这种合成数据驱动的微调策略有望在更多应用场景中发挥重要作用。