超越清洁文本:评估编码器与解码器在孟加拉语嘈杂文本事件检测中的鲁棒性
该研究针对孟加拉语事件检测系统在真实噪声环境下的鲁棒性进行评估,引入了包含9,979个标注句子、40个事件子类型的基准数据集,涵盖清洁文本、ASR转录和拼写错误文本。实验结果揭示了编码器与解码器架构之间的权衡:编码器模型在清洁文本上表现更好但噪声下性能显著下降,而解码器大型语言模型(LLM)则更为稳健。指令微调中嵌入标注指南能提高噪声文本基线性能,但降噪效果不一致。模型扩展持续提升解码器LLM的鲁棒性,而混合训练则有效缩小了鲁棒性差距,尤其有益于编码器架构。
近日,一项由Tanvir Ahmed Sijan等研究人员完成的论文(编号arXiv:2606.30914)深入探讨了孟加拉语事件检测系统在真实世界噪声环境下的鲁棒性。传统的事件检测(ED)系统通常仅在清洁、精心整理的文本上进行评估,忽视了实际应用中常见的噪声干扰,特别是对于孟加拉语这类低资源语言。该研究为此构建了一个通用的孟加拉语新闻事件本体论,并创建了一个包含9,979个标注句子的基准数据集,覆盖40种事件子类型。该数据集不仅包括清洁新闻文本,还纳入了真实的自动语音识别(ASR)转录文本以及拼写错误文本,以模拟实际应用场景中的各种噪声类型。
在模型评估方面,研究团队系统比较了两种主流架构:微调的仅编码器模型(BanglaBERT和XLM-R)和指令微调的仅解码器大型语言模型(LLaMA 3和Gemma 3)。实验结果揭示了清晰的架构权衡:编码器模型在清洁文本上取得了更高的性能,但一旦遇到噪声,性能显著下降;而解码器LLM则表现出更强的鲁棒性,特别是在事件触发词被破坏的情况下。此外,研究发现,在指令微调过程中嵌入标注指南可以提升模型在噪声文本上的性能基线,但这种提升在不同噪声条件下并不一致,并未稳定地减少性能退化。
进一步的分析表明,模型规模的扩展持续改善了仅解码器LLM的鲁棒性。而结合清洁数据和噪声数据的混合训练则作为一种有效的正则化策略,对编码器架构尤其有益,显著缩小了编码器与解码器之间的鲁棒性差距。该研究为低资源语言事件检测系统的实际部署提供了重要启示:在实际应用中,编码器模型在清洁环境下更具优势,而解码器LLM在噪声环境下更为可靠。混合训练策略则为缩小鲁棒性差距提供了一条可行路径,有助于推动相关技术在实际场景中的落地。