2026-06-06 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

用於多表問答的合成對比推理

該研究構建了一個合成對比推理軌跡資料集，用於多表問答任務，並透過對比偏好最佳化（CPO）微調開源大語言模型，在MMQA基準上實現了9.7%-16.3%的絕對平均提升，最高提升達21個百分點。

來源arXiv AI作者: Ankit Pratap Singh, Xin Su, Phillip Howard

多表問答（Multi-table Q&A）是一項具有挑戰性的自然語言處理任務，要求模型能夠跨多個關係型資料庫表檢索相關證據、連結模式並執行組合推理。然而，現有的多表問答資料集通常只提供問題和最終答案，缺乏解釋答案推導過程的推理監督訊號，這限制了模型在複雜場景下的推理能力。為了填補這一空白，來自Ankit Pratap Singh等研究人員提出了一種基於合成對比推理軌跡的方法，針對MMQA基準構建了一個全新的資料集。

該研究的核心創新在於利用多種異構大語言模型（LLMs）生成經過驗證的正向推理軌跡和合理的負向推理軌跡。正向軌跡代表了正確的推理路徑，而負向軌跡則包含了常見的推理錯誤，從而構成對比偏好對。這些偏好對被用於對比偏好最佳化（Contrastive Preference Optimization, CPO）技術，以微調開源的大語言模型。實驗中，作者選擇了Qwen3-14B、Mistral-8B和Llama-3.1-8B三種模型進行測試。結果表明，與傳統的問答監督微調（SFT）相比，CPO在MMQA基準上取得了絕對平均9.7%到16.3%的效能提升，其中最大提升幅度達到21個百分點。

進一步的消融實驗揭示了異構正負軌跡生成器的重要性：使用單一的生成器會導致對比訊號減弱，而異構生成器則能提供更豐富的對比資訊，幫助模型更好地區分正確與錯誤的推理路徑。此外，自動評估和人工評估均表明，生成的對比軌跡對在忠實度、連貫性和對比意義方面表現出色。這一方法不僅為多表問答任務提供了有效的推理監督手段，也為其他需要複雜推理能力的NLP任務提供了新的思路。隨著開源模型的不斷進步，這種合成資料驅動的微調策略有望在更多應用場景中發揮重要作用。