AI News HubLIVE
站内改写1 分鐘閱讀

用於多表問答的合成對比推理

該研究構建了一個合成對比推理軌跡數據集,用於多表問答任務,並通過對比偏好優化(CPO)微調開源大語言模型,在MMQA基準上實現了9.7%-16.3%的絕對平均提升,最高提升達21個百分點。

來源arXiv AI作者: Ankit Pratap Singh, Xin Su, Phillip Howard

多表問答(Multi-table Q&A)是一項具有挑戰性的自然語言處理任務,要求模型能夠跨多個關係型數據庫表檢索相關證據、鏈接模式並執行組合推理。然而,現有的多表問答數據集通常只提供問題和最終答案,缺乏解釋答案推導過程的推理監督信號,這限制了模型在複雜場景下的推理能力。為了填補這一空白,來自Ankit Pratap Singh等研究人員提出了一種基於合成對比推理軌跡的方法,針對MMQA基準構建了一個全新的數據集。

該研究的核心創新在於利用多種異構大語言模型(LLMs)生成經過驗證的正向推理軌跡和合理的負向推理軌跡。正向軌跡代表了正確的推理路徑,而負向軌跡則包含了常見的推理錯誤,從而構成對比偏好對。這些偏好對被用於對比偏好優化(Contrastive Preference Optimization, CPO)技術,以微調開源的大語言模型。實驗中,作者選擇了Qwen3-14B、Mistral-8B和Llama-3.1-8B三種模型進行測試。結果表明,與傳統的問答監督微調(SFT)相比,CPO在MMQA基準上取得了絕對平均9.7%到16.3%的性能提升,其中最大提升幅度達到21個百分點。

進一步的消融實驗揭示了異構正負軌跡生成器的重要性:使用單一的生成器會導致對比信號減弱,而異構生成器則能提供更豐富的對比信息,幫助模型更好地區分正確與錯誤的推理路徑。此外,自動評估和人工評估均表明,生成的對比軌跡對在忠實度、連貫性和對比意義方面表現出色。這一方法不僅為多表問答任務提供了有效的推理監督手段,也為其他需要複雜推理能力的NLP任務提供了新的思路。隨着開源模型的不斷進步,這種合成數據驅動的微調策略有望在更多應用場景中發揮重要作用。