2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:03 UTC+8

因果联系：利用多语言微调进行金融问答@FinCausal 2026

本文介绍了HSA_CORAL团队在FinCausal 2026共享任务中的提交，旨在通过抽取式问答从金融叙述中提取因果关系的任务。团队比较了三种模型家族：仅编码器的令牌标注（多语言BERT）、编码器-解码器生成（多语言BART）和仅解码器的大语言模型（Llama 3.1和GPT变体），并使用了提示优化、少样本演示和监督微调。结果表明，监督微调带来了最大的改进，最佳系统是结合英语和西班牙语训练数据微调的GPT-4.1 Mini，在英语子任务中取得最高分（4.8140），在西班牙语中排名第三（4.7753）。研究强调了任务特定适应和多语言微调在跨语言金融因果关系问答中的价值。

来源arXiv Computational Linguistics作者: Akash Kumar Gautam, Serhii Hamotskyi, Christian H\"anig

在金融领域，准确地从叙述性文本中提取因果关系对于风险评估、决策支持和合规分析至关重要。FinCausal 2026共享任务正是针对这一需求，要求参与者通过抽取式问答（extractive QA）在英语和西班牙语的金融叙述中识别原因-效应关系。HSA_CORAL团队提交的系统针对这一任务进行了深入探索，系统比较了三种主流的自然语言处理模型家族。

第一类模型是仅编码器的令牌标注方法，采用多语言BERT（mBERT）进行序列标注，将因果关系提取视为一个分类问题。第二类是编码器-解码器生成模型，使用多语言BART（mBART）直接生成包含因果关系的答案文本。第三类则是仅解码器的大语言模型（LLM），包括Llama 3.1和GPT系列变体（如GPT-4.1 Mini）。这些模型在实验中配合了三种策略：直接提示（prompting）、少样本演示（few-shot demonstrations）和监督微调（supervised fine-tuning）。

实验结果表明，提示和少样本方法虽然能提供有竞争力的性能，但监督微调在所有设置中带来了最大的性能提升。团队的最佳系统是基于GPT-4.1 Mini的模型，该模型在结合英语和西班牙语训练数据上进行微调后，在英语子任务中取得了并列最高分4.8140，在西班牙语子任务中排名第三，得分为4.7753。评估采用共享任务规定的LLM-as-a-judge指标，即由大语言模型作为裁判给出分数。

这一研究不仅展示了特定任务适应和多语言微调的价值，还强调了跨语言迁移在金融因果关系问答中的潜力。论文已被2026年LREC会议上的第七届金融叙述处理研讨会（FNP 2026）接收，并发表在会议论文集中。HSA_CORAL团队的成果为金融领域的因果推理提供了实用的技术路线，尤其在多语言场景下具有重要的应用前景。