因果聯絡:利用多語言微調進行金融問答@FinCausal 2026
本文介紹了HSA_CORAL團隊在FinCausal 2026共享任務中的提交,旨在透過抽取式問答從金融敘述中提取因果關係的任務。團隊比較了三種模型家族:僅編碼器的令牌標註(多語言BERT)、編碼器-解碼器生成(多語言BART)和僅解碼器的大語言模型(Llama 3.1和GPT變體),並使用了提示最佳化、少樣本演示和監督微調。結果表明,監督微調帶來了最大的改進,最佳系統是結合英語和西班牙語訓練資料微調的GPT-4.1 Mini,在英語子任務中取得最高分(4.8140),在西班牙語中排名第三(4.7753)。研究強調了任務特定適應和多語言微調在跨語言金融因果關係問答中的價值。
在金融領域,準確地從敘述性文本中提取因果關係對於風險評估、決策支援和合規分析至關重要。FinCausal 2026共享任務正是針對這一需求,要求參與者透過抽取式問答(extractive QA)在英語和西班牙語的金融敘述中識別原因-效應關係。HSA_CORAL團隊提交的系統針對這一任務進行了深入探索,系統比較了三種主流的自然語言處理模型家族。
第一類模型是僅編碼器的令牌標註方法,採用多語言BERT(mBERT)進行序列標註,將因果關係提取視為一個分類問題。第二類是編碼器-解碼器生成模型,使用多語言BART(mBART)直接生成包含因果關係的答案文本。第三類則是僅解碼器的大語言模型(LLM),包括Llama 3.1和GPT系列變體(如GPT-4.1 Mini)。這些模型在實驗中配合了三種策略:直接提示(prompting)、少樣本演示(few-shot demonstrations)和監督微調(supervised fine-tuning)。
實驗結果表明,提示和少樣本方法雖然能提供有競爭力的效能,但監督微調在所有設定中帶來了最大的效能提升。團隊的最佳系統是基於GPT-4.1 Mini的模型,該模型在結合英語和西班牙語訓練資料上進行微調後,在英語子任務中取得了並列最高分4.8140,在西班牙語子任務中排名第三,得分為4.7753。評估採用共享任務規定的LLM-as-a-judge指標,即由大語言模型作為裁判給出分數。
這一研究不僅展示了特定任務適應和多語言微調的價值,還強調了跨語言遷移在金融因果關係問答中的潛力。論文已被2026年LREC會議上的第七屆金融敘述處理研討會(FNP 2026)接收,並發表在會議論文集中。HSA_CORAL團隊的成果為金融領域的因果推理提供了實用的技術路線,尤其在多語言場景下具有重要的應用前景。