2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:07 UTC+8

Indi-RomCoM：用於評估大語言模型在羅馬化印地語-英語混合指令上表現的基準

Indi-RomCoM基準涵蓋七項指令遵循任務、四種印度語言和三種混合強度，系統評估LLM在羅馬化程式碼混合指令上的表現。實驗發現，所有模型在混合指令上均表現不佳，且效能隨混合密度增加而下降；推理任務退化程度低於檢測任務。

來源arXiv Computational Linguistics作者: Avisha Das, Mihir Parmar, Mohana Ramnath, Pulkit Verma

隨著全球多語言社群的興起，羅馬化程式碼混合（RCM）已成為雙語使用者日常交流的主要形式——他們將母語與英語混合，並使用羅馬字母書寫。然而，大型語言模型（LLM）在單語和原生指令碼基準測試中表現出色，但其在理解和處理羅馬化程式碼混合指令方面的能力鮮有研究。為了填補這一空白，研究團隊提出了Indi-RomCoM基準，旨在系統性地評估LLM在羅馬化印地語-英語程式碼混合指令上的表現。

該基準涵蓋七項指令遵循任務：文本分類、情感分析、問答、推理、毒性檢測、翻譯和摘要生成。涉及四種廣泛使用的印度語言——印地語、孟加拉語、泰盧固語和馬拉地語，並設定低、中、高三種混合強度，以模擬真實場景中的不同混合程度。基準包含大量人工標註的指令-響應對，確保評估的全面性和可靠性。

研究團隊對多種LLM進行了評估，包括專有模型（如GPT-4）、開源模型（如LLaMA）以及專注於印地語的模型。在零樣本和少樣本設定下，所有模型在RCM指令上的表現均顯著低於純英語或本地語言基準。隨著程式碼混合密度的增加，效能呈線性下降。然而，一個有趣的發現是，推理任務（如邏輯推理和常識問答）的退化程度低於檢測任務（如毒性檢測）。研究人員認為，這是因為推理任務生成的解釋性文本提供了額外的上下文，幫助模型彌補了程式碼混合帶來的語言歧義。

Indi-RomCoM基準對多語言AI系統的發展具有重要意義。它不僅揭示了當前LLM在處理程式碼混合語言上的不足，還提供了一個標準化的評估框架。未來，該基準可用於指導模型訓練和微調，尤其是在資料增強和跨語言遷移學習方面。研究團隊計劃繼續擴充套件基準，覆蓋更多語言和任務，並探索透過提示工程或模型架構改進來提升LLM在RCM場景下的表現。