辞書からAIへ:低リソース言語向け専門対話システムのための構造化データパイプライン
ヒンディー語WordNetを125万件の命令応答ペアに変換し、リソース効率的なLoRAと4ビット量子化を用いて12Bパラメータの言語モデルを微調整する手法を提案。ヒンディー語学習チャットボットによる評価では、汎用モデル(79.4-83.6)を上回る91.0の教育効果を示し、セマンティック性能も競争力を維持。この研究は、低リソース言語向けに大規模コーパスに依存しない代替手段を提供し、WordNetリソースを持つ数百の言語で専門AI開発を可能にする。
大規模言語モデル(LLM)の進歩は膨大な訓練データに依存しており、低リソース言語では専用の対話システムを開発する際に大きな課題に直面しています。この問題に対処するため、インドの研究チームは、既存の構造化言語リソース(WordNetなど)を活用して専門AIシステムを構築する方法を提案しました。
研究チームは、概念実証としてヒンディー語を選択し、言語専門家が厳選した語彙データベースであるヒンディー語WordNetを、125万件の多様な命令応答ペアに体系的に変換しました。これらのペアは、豊富な言語現象と知識領域をカバーし、モデル微調整のための高品質な訓練材料を提供します。次に、LoRA(低ランク適応)と4ビット量子化技術を使用して、12Bパラメータの言語モデルを微調整しました。LoRAは少数のパラメータのみを更新し、4ビット量子化はモデルのメモリ使用量と計算要件を大幅に削減するため、一般消費者向けGPUでも微調整が可能でありながら、モデル性能を維持します。
この手法の有効性を評価するため、研究者らはヒンディー語学習用チャットボットを開発しました。教育効果の評価では、構造化知識ベースのシステムが91.0点(満点100)を達成し、汎用モデル(GPT-3.5など)の79.4〜83.6点を大きく上回りました。また、意味理解と生成の一貫性においても、汎用モデルと同等以上のパフォーマンスを示しました。これは、構造化知識ベースを活用することで、専用対話システムの教育効果を大幅に向上させ、意味処理の信頼性を維持できることを示しています。
この研究の重要性は、大規模コーパスがなくても、WordNetのような既存の言語リソースを利用して高性能な専門AIシステムを開発できることを実証した点にあります。現在、世界では200以上の言語でWordNetリソースが利用可能であり、このパイプラインはウルドゥー語やベンガル語など他の低リソース言語にも広く応用でき、それらの言語におけるAI開発の実行可能な道筋を提供します。
論文は2026年5月21日にarXivプレプリントサーバーに提出され、計算言語学(cs.CL)と人工知能(cs.AI)の分野で発表されました。研究は、インドの研究機関に所属するSiddhant Hitesh Mantri氏を含む4名の著者によって行われました。この研究は、低リソース言語コミュニティに新たな希望をもたらすとともに、AI技術の民主化に向けた重要な実践的例を提供します。