用于多表问答的合成对比推理
该研究构建了一个合成对比推理轨迹数据集,用于多表问答任务,并通过对比偏好优化(CPO)微调开源大语言模型,在MMQA基准上实现了9.7%-16.3%的绝对平均提升,最高提升达21个百分点。
多表问答(Multi-table Q&A)是一项具有挑战性的自然语言处理任务,要求模型能够跨多个关系型数据库表检索相关证据、链接模式并执行组合推理。然而,现有的多表问答数据集通常只提供问题和最终答案,缺乏解释答案推导过程的推理监督信号,这限制了模型在复杂场景下的推理能力。为了填补这一空白,来自Ankit Pratap Singh等研究人员提出了一种基于合成对比推理轨迹的方法,针对MMQA基准构建了一个全新的数据集。
该研究的核心创新在于利用多种异构大语言模型(LLMs)生成经过验证的正向推理轨迹和合理的负向推理轨迹。正向轨迹代表了正确的推理路径,而负向轨迹则包含了常见的推理错误,从而构成对比偏好对。这些偏好对被用于对比偏好优化(Contrastive Preference Optimization, CPO)技术,以微调开源的大语言模型。实验中,作者选择了Qwen3-14B、Mistral-8B和Llama-3.1-8B三种模型进行测试。结果表明,与传统的问答监督微调(SFT)相比,CPO在MMQA基准上取得了绝对平均9.7%到16.3%的性能提升,其中最大提升幅度达到21个百分点。
进一步的消融实验揭示了异构正负轨迹生成器的重要性:使用单一的生成器会导致对比信号减弱,而异构生成器则能提供更丰富的对比信息,帮助模型更好地区分正确与错误的推理路径。此外,自动评估和人工评估均表明,生成的对比轨迹对在忠实度、连贯性和对比意义方面表现出色。这一方法不仅为多表问答任务提供了有效的推理监督手段,也为其他需要复杂推理能力的NLP任务提供了新的思路。随着开源模型的不断进步,这种合成数据驱动的微调策略有望在更多应用场景中发挥重要作用。