Indi-RomCoM:用于评估大语言模型在罗马化印地语-英语混合指令上表现的基准
Indi-RomCoM基准涵盖七项指令遵循任务、四种印度语言和三种混合强度,系统评估LLM在罗马化代码混合指令上的表现。实验发现,所有模型在混合指令上均表现不佳,且性能随混合密度增加而下降;推理任务退化程度低于检测任务。
随着全球多语言社区的兴起,罗马化代码混合(RCM)已成为双语使用者日常交流的主要形式——他们将母语与英语混合,并使用罗马字母书写。然而,大型语言模型(LLM)在单语和原生脚本基准测试中表现出色,但其在理解和处理罗马化代码混合指令方面的能力鲜有研究。为了填补这一空白,研究团队提出了Indi-RomCoM基准,旨在系统性地评估LLM在罗马化印地语-英语代码混合指令上的表现。
该基准涵盖七项指令遵循任务:文本分类、情感分析、问答、推理、毒性检测、翻译和摘要生成。涉及四种广泛使用的印度语言——印地语、孟加拉语、泰卢固语和马拉地语,并设置低、中、高三种混合强度,以模拟真实场景中的不同混合程度。基准包含大量人工标注的指令-响应对,确保评估的全面性和可靠性。
研究团队对多种LLM进行了评估,包括专有模型(如GPT-4)、开源模型(如LLaMA)以及专注于印地语的模型。在零样本和少样本设置下,所有模型在RCM指令上的表现均显著低于纯英语或本地语言基准。随着代码混合密度的增加,性能呈线性下降。然而,一个有趣的发现是,推理任务(如逻辑推理和常识问答)的退化程度低于检测任务(如毒性检测)。研究人员认为,这是因为推理任务生成的解释性文本提供了额外的上下文,帮助模型弥补了代码混合带来的语言歧义。
Indi-RomCoM基准对多语言AI系统的发展具有重要意义。它不仅揭示了当前LLM在处理代码混合语言上的不足,还提供了一个标准化的评估框架。未来,该基准可用于指导模型训练和微调,尤其是在数据增强和跨语言迁移学习方面。研究团队计划继续扩展基准,覆盖更多语言和任务,并探索通过提示工程或模型架构改进来提升LLM在RCM场景下的表现。