2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

一种用于类型学可控词汇生成的模块化架构

该研究提出了一种模块化框架，用于生成可发音、类型学合理且语义结构清晰的人工词汇。框架从PHOIBLE数据库中采样音位清单，在可互换的音系语法（确定性、OT和MaxEnt）下生成词形，并通过Swadesh-Leipzig-Jakarta本体分配含义。评估表明，概率语法在音位连贯性和类型学真实性方面始终优于确定性和随机基线。

来源arXiv Computational Linguistics作者: Sankalp Tattwadarshi Swain, Dhruv Kumar

在计算语言学中，构建既具有可发音性、类型学合理性又具备语义结构的人工词汇仍然是一个重大挑战。现有的语言构造器（conlang generator）要么缺乏严格的音位配列保证，要么依赖于不透明且难以复现的大型语言模型流水线。来自arXiv的研究者提出了一种模块化架构，旨在实现类型学可控的词汇生成，该架构通过三个核心组件来解决上述问题：首先，从PHOIBLE数据库中采样真实的音位清单；其次，在可互换的音系语法模块（包括确定性规则、优选论（OT）和最大熵（MaxEnt）模型）下生成词形；最后，利用Swadesh-Leipzig-Jakarta本体为每个词形分配语义，并建立显式的形式-意义对齐。这种设计允许研究者自由组合组件，从而灵活地控制生成词汇的类型学特征。为了评估框架的有效性，团队在100至5000个词形的词汇规模上，使用字符n-gram困惑度、对数似然和KL散度等指标与PHOIBLE数据库进行了对比。实验结果表明，概率语法（尤其是MaxEnt模型）在音位配列连贯性和类型学真实性两方面均显著优于确定性和随机基线。这证明了概率建模在捕捉自然语言音系规律方面的优势。该研究的意义在于提供了一种可复现且透明的人工词汇生成方案，通过分离音位清单、音系语法和语义本体，研究者可以分别优化各个环节，并根据特定需求调整词汇的类型学特征。未来，该框架有望应用于语言进化模拟、跨语言对比研究以及语言教学等领域。