AI News HubLIVE
站内改写1 分鐘閱讀

古典詩歌到現代散文的翻譯

研究人員引入了Padyam2Gadyam數據集,用於將13至17世紀的泰盧固語古典詩歌翻譯成現代泰盧固語和英語散文。該數據集包含600首詩歌及其人工驗證的翻譯。評估了5種大型語言模型的表現,結果表明仍有較大改進空間。

來源arXiv Computational Linguistics作者: Chalamalasetti Kranti, Sowmya Vajjala

研究人員近日發佈了一項新研究,介紹了名為Padyam2Gadyam的數據集,旨在解決古典詩歌到現代散文的翻譯問題。該數據集專注於13至17世紀的泰盧固語古典詩歌,將其翻譯為當代泰盧固語和英語散文。數據集共包含600首詩歌,每首詩歌都配備了經過人工驗證的泰盧固語和英語散文翻譯,確保了翻譯的準確性和高質量。這些詩歌涵蓋了多種主題和風格,代表了泰盧固語古典文學的精華。

為了評估現有技術的水平,研究團隊對5種主流大型語言模型(LLMs)進行了測試,考察它們在將古典詩歌轉換為散文方面的能力。測試涵蓋了泰盧固語和英語兩種目標語言,並使用了多種評估指標,包括BLEU、ROUGE等自動評分以及人工評估。結果顯示,儘管不同模型之間表現存在差異,但總體而言,所有模型在兩種語言上的表現都有很大的改進空間。這表明,詩到散文的翻譯仍然是一項具有挑戰性的任務,現有模型尚未能完美處理其中的語義和文化轉換。

除了定量評估,研究還進行了定性分析,深入探討了當前機器翻譯(MT)評估方法在這一特定任務中的適用性和侷限性。分析指出,傳統評估指標可能無法完全捕捉詩歌翻譯中的韻律、意境和文化內涵,因此需要開發更專門的評估框架。例如,自動評分往往無法反映譯文的流暢性和詩意的保留程度。研究團隊建議結合人工評估和專門設計的指標來更全面地評價翻譯質量。

該研究不僅為泰盧固語古典文學的數字化和傳播提供了寶貴資源,也為自然語言處理領域中的低資源語言翻譯研究開闢了新方向。Padyam2Gadyam數據集可以用於訓練和評估模型,促進更多針對低資源語言和文化特有任務的NLP研究。論文作為預印本於2026年6月提交至arXiv,目前正在等待同行評審。