2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:11 UTC+8

超越清潔文本：評估編碼器與解碼器在孟加拉語嘈雜文本事件檢測中的魯棒性

該研究針對孟加拉語事件檢測系統在真實噪聲環境下的魯棒性進行評估，引入了包含9,979個標註句子、40個事件子類型的基準數據集，涵蓋清潔文本、ASR轉錄和拼寫錯誤文本。實驗結果揭示了編碼器與解碼器架構之間的權衡：編碼器模型在清潔文本上表現更好但噪聲下性能顯著下降，而解碼器大型語言模型（LLM）則更為穩健。指令微調中嵌入標註指南能提高噪聲文本基線性能，但降噪效果不一致。模型擴展持續提升解碼器LLM的魯棒性，而混合訓練則有效縮小了魯棒性差距，尤其有益於編碼器架構。

來源arXiv Computational Linguistics作者: Tanvir Ahmed Sijan, S. M Golam Rifat, Nayeemul Islam, Md. Musfique Anwar

近日，一項由Tanvir Ahmed Sijan等研究人員完成的論文（編號arXiv:2606.30914）深入探討了孟加拉語事件檢測系統在真實世界噪聲環境下的魯棒性。傳統的事件檢測（ED）系統通常僅在清潔、精心整理的文本上進行評估，忽視了實際應用中常見的噪聲干擾，特別是對於孟加拉語這類低資源語言。該研究為此構建了一個通用的孟加拉語新聞事件本體論，並創建了一個包含9,979個標註句子的基準數據集，覆蓋40種事件子類型。該數據集不僅包括清潔新聞文本，還納入了真實的自動語音識別（ASR）轉錄文本以及拼寫錯誤文本，以模擬實際應用場景中的各種噪聲類型。

在模型評估方面，研究團隊系統比較了兩種主流架構：微調的僅編碼器模型（BanglaBERT和XLM-R）和指令微調的僅解碼器大型語言模型（LLaMA 3和Gemma 3）。實驗結果揭示了清晰的架構權衡：編碼器模型在清潔文本上取得了更高的性能，但一旦遇到噪聲，性能顯著下降；而解碼器LLM則表現出更強的魯棒性，特別是在事件觸發詞被破壞的情況下。此外，研究發現，在指令微調過程中嵌入標註指南可以提升模型在噪聲文本上的性能基線，但這種提升在不同噪聲條件下並不一致，並未穩定地減少性能退化。

進一步的分析表明，模型規模的擴展持續改善了僅解碼器LLM的魯棒性。而結合清潔數據和噪聲數據的混合訓練則作為一種有效的正則化策略，對編碼器架構尤其有益，顯著縮小了編碼器與解碼器之間的魯棒性差距。該研究為低資源語言事件檢測系統的實際部署提供了重要啓示：在實際應用中，編碼器模型在清潔環境下更具優勢，而解碼器LLM在噪聲環境下更為可靠。混合訓練策略則為縮小魯棒性差距提供了一條可行路徑，有助於推動相關技術在實際場景中的落地。