用於多表問答的合成對比推理
該研究構建了一個合成對比推理軌跡資料集,用於多表問答任務,並透過對比偏好最佳化(CPO)微調開源大語言模型,在MMQA基準上實現了9.7%-16.3%的絕對平均提升,最高提升達21個百分點。
多表問答(Multi-table Q&A)是一項具有挑戰性的自然語言處理任務,要求模型能夠跨多個關係型資料庫表檢索相關證據、連結模式並執行組合推理。然而,現有的多表問答資料集通常只提供問題和最終答案,缺乏解釋答案推導過程的推理監督訊號,這限制了模型在複雜場景下的推理能力。為了填補這一空白,來自Ankit Pratap Singh等研究人員提出了一種基於合成對比推理軌跡的方法,針對MMQA基準構建了一個全新的資料集。
該研究的核心創新在於利用多種異構大語言模型(LLMs)生成經過驗證的正向推理軌跡和合理的負向推理軌跡。正向軌跡代表了正確的推理路徑,而負向軌跡則包含了常見的推理錯誤,從而構成對比偏好對。這些偏好對被用於對比偏好最佳化(Contrastive Preference Optimization, CPO)技術,以微調開源的大語言模型。實驗中,作者選擇了Qwen3-14B、Mistral-8B和Llama-3.1-8B三種模型進行測試。結果表明,與傳統的問答監督微調(SFT)相比,CPO在MMQA基準上取得了絕對平均9.7%到16.3%的效能提升,其中最大提升幅度達到21個百分點。
進一步的消融實驗揭示了異構正負軌跡生成器的重要性:使用單一的生成器會導致對比訊號減弱,而異構生成器則能提供更豐富的對比資訊,幫助模型更好地區分正確與錯誤的推理路徑。此外,自動評估和人工評估均表明,生成的對比軌跡對在忠實度、連貫性和對比意義方面表現出色。這一方法不僅為多表問答任務提供了有效的推理監督手段,也為其他需要複雜推理能力的NLP任務提供了新的思路。隨著開源模型的不斷進步,這種合成資料驅動的微調策略有望在更多應用場景中發揮重要作用。