古典诗歌到现代散文的翻译
研究人员引入了Padyam2Gadyam数据集,用于将13至17世纪的泰卢固语古典诗歌翻译成现代泰卢固语和英语散文。该数据集包含600首诗歌及其人工验证的翻译。评估了5种大型语言模型的表现,结果表明仍有较大改进空间。
研究人员近日发布了一项新研究,介绍了名为Padyam2Gadyam的数据集,旨在解决古典诗歌到现代散文的翻译问题。该数据集专注于13至17世纪的泰卢固语古典诗歌,将其翻译为当代泰卢固语和英语散文。数据集共包含600首诗歌,每首诗歌都配备了经过人工验证的泰卢固语和英语散文翻译,确保了翻译的准确性和高质量。这些诗歌涵盖了多种主题和风格,代表了泰卢固语古典文学的精华。
为了评估现有技术的水平,研究团队对5种主流大型语言模型(LLMs)进行了测试,考察它们在将古典诗歌转换为散文方面的能力。测试涵盖了泰卢固语和英语两种目标语言,并使用了多种评估指标,包括BLEU、ROUGE等自动评分以及人工评估。结果显示,尽管不同模型之间表现存在差异,但总体而言,所有模型在两种语言上的表现都有很大的改进空间。这表明,诗到散文的翻译仍然是一项具有挑战性的任务,现有模型尚未能完美处理其中的语义和文化转换。
除了定量评估,研究还进行了定性分析,深入探讨了当前机器翻译(MT)评估方法在这一特定任务中的适用性和局限性。分析指出,传统评估指标可能无法完全捕捉诗歌翻译中的韵律、意境和文化内涵,因此需要开发更专门的评估框架。例如,自动评分往往无法反映译文的流畅性和诗意的保留程度。研究团队建议结合人工评估和专门设计的指标来更全面地评价翻译质量。
该研究不仅为泰卢固语古典文学的数字化和传播提供了宝贵资源,也为自然语言处理领域中的低资源语言翻译研究开辟了新方向。Padyam2Gadyam数据集可以用于训练和评估模型,促进更多针对低资源语言和文化特有任务的NLP研究。论文作为预印本于2026年6月提交至arXiv,目前正在等待同行评审。