一種用於型別學可控詞彙生成的模組化架構
該研究提出了一種模組化框架,用於生成可發音、型別學合理且語義結構清晰的人工詞彙。框架從PHOIBLE資料庫中取樣音位清單,在可互換的音系語法(確定性、OT和MaxEnt)下生成詞形,並透過Swadesh-Leipzig-Jakarta本體分配含義。評估表明,機率語法在音位連貫性和型別學真實性方面始終優於確定性和隨機基線。
文章情報
要點
- 模組化框架結合PHOIBLE音位庫、多種音系語法和語義本體
- 最大熵語法在音位模式和型別學真實性上表現最佳
- 支援100-5000詞規模的詞彙生成,優於現有方法
為什麼重要
這條新聞值得關注,因為模組化框架結合PHOIBLE音位庫、多種音系語法和語義本體。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
在計算語言學中,構建既具有可發音性、型別學合理性又具備語義結構的人工詞彙仍然是一個重大挑戰。現有的語言建構子(conlang generator)要麼缺乏嚴格的音位配列保證,要麼依賴於不透明且難以復現的大型語言模型流水線。來自arXiv的研究者提出了一種模組化架構,旨在實現型別學可控的詞彙生成,該架構透過三個核心元件來解決上述問題:首先,從PHOIBLE資料庫中取樣真實的音位清單;其次,在可互換的音系語法模組(包括確定性規則、優選論(OT)和最大熵(MaxEnt)模型)下生成詞形;最後,利用Swadesh-Leipzig-Jakarta本體為每個詞形分配語義,並建立顯式的形式-意義對齊。這種設計允許研究者自由組合元件,從而靈活地控制生成詞彙的型別學特徵。為了評估框架的有效性,團隊在100至5000個詞形的詞彙規模上,使用字元n-gram困惑度、對數似然和KL散度等指標與PHOIBLE資料庫進行了對比。實驗結果表明,機率語法(尤其是MaxEnt模型)在音位配列連貫性和型別學真實性兩方面均顯著優於確定性和隨機基線。這證明了機率建模在捕捉自然語言音系規律方面的優勢。該研究的意義在於提供了一種可復現且透明的人工詞彙生成方案,透過分離音位清單、音系語法和語義本體,研究者可以分別最佳化各個環節,並根據特定需求調整詞彙的型別學特徵。未來,該框架有望應用於語言進化模擬、跨語言對比研究以及語言教學等領域。