2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:07 UTC+8

Indi-RomCoM：用于评估大语言模型在罗马化印地语-英语混合指令上表现的基准

Indi-RomCoM基准涵盖七项指令遵循任务、四种印度语言和三种混合强度，系统评估LLM在罗马化代码混合指令上的表现。实验发现，所有模型在混合指令上均表现不佳，且性能随混合密度增加而下降；推理任务退化程度低于检测任务。

来源arXiv Computational Linguistics作者: Avisha Das, Mihir Parmar, Mohana Ramnath, Pulkit Verma

随着全球多语言社区的兴起，罗马化代码混合（RCM）已成为双语使用者日常交流的主要形式——他们将母语与英语混合，并使用罗马字母书写。然而，大型语言模型（LLM）在单语和原生脚本基准测试中表现出色，但其在理解和处理罗马化代码混合指令方面的能力鲜有研究。为了填补这一空白，研究团队提出了Indi-RomCoM基准，旨在系统性地评估LLM在罗马化印地语-英语代码混合指令上的表现。

该基准涵盖七项指令遵循任务：文本分类、情感分析、问答、推理、毒性检测、翻译和摘要生成。涉及四种广泛使用的印度语言——印地语、孟加拉语、泰卢固语和马拉地语，并设置低、中、高三种混合强度，以模拟真实场景中的不同混合程度。基准包含大量人工标注的指令-响应对，确保评估的全面性和可靠性。

研究团队对多种LLM进行了评估，包括专有模型（如GPT-4）、开源模型（如LLaMA）以及专注于印地语的模型。在零样本和少样本设置下，所有模型在RCM指令上的表现均显著低于纯英语或本地语言基准。随着代码混合密度的增加，性能呈线性下降。然而，一个有趣的发现是，推理任务（如逻辑推理和常识问答）的退化程度低于检测任务（如毒性检测）。研究人员认为，这是因为推理任务生成的解释性文本提供了额外的上下文，帮助模型弥补了代码混合带来的语言歧义。

Indi-RomCoM基准对多语言AI系统的发展具有重要意义。它不仅揭示了当前LLM在处理代码混合语言上的不足，还提供了一个标准化的评估框架。未来，该基准可用于指导模型训练和微调，尤其是在数据增强和跨语言迁移学习方面。研究团队计划继续扩展基准，覆盖更多语言和任务，并探索通过提示工程或模型架构改进来提升LLM在RCM场景下的表现。