IdiomX:多言語慣用句理解・検索・解釈のためのベンチマーク
IdiomXは、19万以上の文脈化された例を含む大規模多言語慣用句ベンチマークであり、12,000以上の慣用句を英語、アラビア語、フランス語でカバーします。4つのタスク(慣用句検出、文脈から慣用句への検索、アラビア語から英語への慣用句検索、慣用句解釈)を定義し、実験ではTransformerモデルが検出を改善し、ハイブリッド検索アーキテクチャが性能を向上させることが示されました。
慣用表現はその非合成的で文脈依存的な性質のため、自然言語処理(NLP)において長年にわたる課題となっています。既存の慣用句リソースは規模や文脈の多様性、多言語カバレッジにおいて限界があり、現代の言語モデルには十分に対応できていません。この問題を解決するため、研究チームはIdiomXを開発しました。これは、慣用句の理解、検索、解釈のための大規模多言語ベンチマークです。IdiomXは、語彙資源の抽出、大規模な正規化、制御された大規模言語モデル(LLM)による拡張、構造化検証からなる再現可能な多段階パイプラインによって構築されました。
IdiomXデータセットには19万以上の文脈化された例が含まれており、12,000以上の慣用句をカバーしています。英語、アラビア語、フランス語の意味表現が整列され、各例には慣用的・字義的使用ラベルと豊富な言語メタデータが付与されています。このリソースに基づき、研究者は4つの統一タスクからなるベンチマークを定義しました:慣用句検出、文脈から慣用句への検索、アラビア語から英語への慣用句検索、および慣用句解釈です。これにより、評価は比喩認識から意味的基盤付け、説明可能な意味検索へと拡張されました。
実験では、文脈を考慮したTransformerモデルが慣用句検出を大幅に改善し、ハイブリッド検索・再ランキングアーキテクチャが単言語および言語間の慣用句検索を強化することが示されました。さらに、慣用句解釈は意味検索タスクとして効果的にモデル化でき、解釈可能性が新たなベンチマーク次元として導入されました。IdiomXはスケーラブルでモジュール化されたフレームワークを提供し、追加言語や比喩推論タスクへの拡張が可能です。データセットとコードはHuggingFace、Kaggle、GitHubで公開されています。