2026-06-03 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

古典詩から現代散文への翻訳

研究者らは、13～17世紀のテルグ語古典詩を現代のテルグ語および英語の散文に翻訳するためのデータセット「Padyam2Gadyam」を発表した。600の詩と人間による検証済み翻訳で構成される。5つの大規模言語モデルを評価した結果、両言語で改善の余地が大きいことが示された。

ソースarXiv Computational Linguistics著者: Chalamalasetti Kranti, Sowmya Vajjala

研究者らは、古典詩を現代散文に翻訳する課題に取り組むため、Padyam2Gadyamデータセットを導入した。このデータセットは、13世紀から17世紀のテルグ語古典詩に焦点を当て、それらを現代のテルグ語および英語の散文に変換するものである。データセットには600の詩が含まれており、各詩には人間が検証したテルグ語と英語の散文翻訳が付与されている。これらの詩は多様なテーマやスタイルをカバーしており、テルグ語古典文学の精華を代表している。

研究チームは、5つの主要な大規模言語モデル（LLM）を評価し、古典詩を散文に変換する能力を検証した。テストはテルグ語と英語の両方を対象言語として実施され、BLEUやROUGEなどの自動評価スコアに加え、人間による評価も行われた。結果は、モデル間でパフォーマンスに差があるものの、全体的には両言語において改善の余地が大きいことを示している。これは、詩から散文への翻訳が依然として困難なタスクであり、既存のモデルがその中で求められる意味や文化の転換を完全に処理できていないことを意味する。

定量的評価に加えて、研究は定性分析も行い、この特定のタスクにおける現在の機械翻訳（MT）評価手法の能力と限界を探求した。分析によれば、従来の評価指標は詩の韻律、感情、文化的重要性を十分に捉えられない可能性があり、より専門的な評価枠組みの開発が必要であることが示唆された。例えば、自動スコアは訳文の流暢さや詩的な表現の保持を反映できないことが多い。研究チームは、人間による評価と専門的に設計された指標を組み合わせて翻訳品質をより包括的に評価することを提案している。

この研究は、テルグ語の古典文学のデジタル化と普及に貴重なリソースを提供するだけでなく、低リソース言語の翻訳研究における新たな方向性を切り開くものである。Padyam2Gadyamデータセットはモデルの訓練と評価に使用でき、低リソース言語や文化特有のタスクに関するNLP研究を促進する。論文はプレプリントとして2026年6月にarXivに提出され、現在査読待ちである。