AI News HubLIVE
站內改寫1 分鐘閱讀

Indi-RomCoM:用於評估大語言模型在羅馬化印地語-英語混合指令上表現的基準

Indi-RomCoM基準涵蓋七項指令遵循任務、四種印度語言和三種混合強度,系統評估LLM在羅馬化程式碼混合指令上的表現。實驗發現,所有模型在混合指令上均表現不佳,且效能隨混合密度增加而下降;推理任務退化程度低於檢測任務。

來源arXiv Computational Linguistics作者: Avisha Das, Mihir Parmar, Mohana Ramnath, Pulkit Verma

隨著全球多語言社群的興起,羅馬化程式碼混合(RCM)已成為雙語使用者日常交流的主要形式——他們將母語與英語混合,並使用羅馬字母書寫。然而,大型語言模型(LLM)在單語和原生指令碼基準測試中表現出色,但其在理解和處理羅馬化程式碼混合指令方面的能力鮮有研究。為了填補這一空白,研究團隊提出了Indi-RomCoM基準,旨在系統性地評估LLM在羅馬化印地語-英語程式碼混合指令上的表現。

該基準涵蓋七項指令遵循任務:文本分類、情感分析、問答、推理、毒性檢測、翻譯和摘要生成。涉及四種廣泛使用的印度語言——印地語、孟加拉語、泰盧固語和馬拉地語,並設定低、中、高三種混合強度,以模擬真實場景中的不同混合程度。基準包含大量人工標註的指令-響應對,確保評估的全面性和可靠性。

研究團隊對多種LLM進行了評估,包括專有模型(如GPT-4)、開源模型(如LLaMA)以及專注於印地語的模型。在零樣本和少樣本設定下,所有模型在RCM指令上的表現均顯著低於純英語或本地語言基準。隨著程式碼混合密度的增加,效能呈線性下降。然而,一個有趣的發現是,推理任務(如邏輯推理和常識問答)的退化程度低於檢測任務(如毒性檢測)。研究人員認為,這是因為推理任務生成的解釋性文本提供了額外的上下文,幫助模型彌補了程式碼混合帶來的語言歧義。

Indi-RomCoM基準對多語言AI系統的發展具有重要意義。它不僅揭示了當前LLM在處理程式碼混合語言上的不足,還提供了一個標準化的評估框架。未來,該基準可用於指導模型訓練和微調,尤其是在資料增強和跨語言遷移學習方面。研究團隊計劃繼續擴充套件基準,覆蓋更多語言和任務,並探索透過提示工程或模型架構改進來提升LLM在RCM場景下的表現。