Indi-RomCoM:ローマ字化されたインド語-英語コードミックス指示におけるLLM評価のためのベンチマーク
Indi-RomCoMベンチマークは、7つの指示追従タスク、4つのインド言語、3つのコードミックス強度レベルをカバーし、LLMのローマ字化コードミックス指示に対する性能を体系的に評価します。実験結果は、LLMが一貫して低い性能を示し、コードミックス密度の増加に伴い性能が低下することを示しています。推論タスクは検出タスクよりも劣化が少ないです。
多言語コミュニティの拡大に伴い、ローマ字化コードミックス(RCM)はバイリンガル話者の主要なコミュニケーション形態となっています。彼らは母語と英語を混ぜ、ローマ字で記述します。しかし、大規模言語モデル(LLM)は単一言語やネイティブスクリプトのベンチマークでは高い性能を示すものの、RCMベースの指示を理解し推論する能力はほとんど調査されていません。このギャップを埋めるため、研究チームはIndi-RomCoMベンチマークを提案しました。これは、ローマ字化されたインド語-英語コードミックス指示を体系的に評価するためのものです。
本ベンチマークは、テキスト分類、感情分析、質問応答、推論、毒性検出、翻訳、要約生成の7つの指示追従タスクをカバーしています。対象言語はヒンディー語、ベンガル語、テルグ語、マラーティー語の4つで、コードミックス強度は低・中・高の3段階に設定されています。実際の使用パターンを反映するため、多くの人手による注釈付き指示-応答ペアが含まれています。
研究チームは、GPT-4などのプロプライエタリモデル、LLaMAなどのオープンウェイトモデル、そしてインド語特化型モデルを含む複数のLLMをゼロショットおよび少数ショット設定で評価しました。その結果、すべてのモデルがRCM指示で一貫して低い性能を示し、コードミックス密度が高くなるにつれて性能が線形に低下することが明らかになりました。注目すべき点は、推論タスク(例:常識推論)が毒性検出などの検出タスクよりも劣化が少なかったことです。これは、推論タスクで生成される説明が追加のコンテキストを提供するためと考えられます。
Indi-RomCoMは、より包括的な多言語システムの開発を促進する重要なリソースです。このベンチマークは、LLMがコードミックス言語で直面する課題を浮き彫りにし、将来のモデル改善のための標準評価フレームワークを提供します。研究チームは、さらに多くの言語やタスクをカバーするようベンチマークを拡張し、プロンプトエンジニアリングやモデルアーキテクチャの改良によるRCM性能向上の可能性を探る予定です。