基于智能体的形态交替模式演化模型
该论文通过多智能体模拟解释了形态交替(如英语“go”的过去式“went”)的出现和持久性。交替形式源于音系变化或词汇变体,并通过群体传播动态扩散。为评估生成形态的真实性,作者引入了AI历史语言学家——一个由大语言模型驱动的辩论系统,比较真实与模拟形态。结果表明,无标度社交网络和随机伯努利采纳有助于产生更合理的形态。三个案例研究验证了替代历史情景。
为什么英语中“go”的过去式是不相关的“went”?这种形态交替现象在语言中十分常见。尽管它们既不便于沟通也难以学习,却能在语言中持续存在数百年甚至千年。近期,一项来自arXiv的研究通过多智能体模拟,揭示了这些交替模式产生和维持的机制。
该研究提出了一个多智能体模拟框架,用于模拟形态词干和屈折变化交替的出现。交替形式可能源于音系变化,或者像“go/went”这样,来自部分人群使用的词汇变体。当智能体“听到”另一个智能体使用某个词的新形式时,它会以一定概率采纳该形式,并可能将其扩展到共享原形式的其他语法槽位。通过这种方式,交替形式在群体中传播并逐渐固化为词干或屈折标记的交替项。
与先前的计算研究不同,该系统允许使用自然主义的词汇形式、现实的音系规则、包含数百或数千词条的词汇表,以及数十或数百个智能体的群体。它支持多种网络拓扑结构、扩散模式和智能体采纳策略,从而更真实地模拟语言变化。
这类模拟的一个关键挑战是评估生成形态的真实性。为此,作者引入了AI历史语言学家,这是一个基于大型语言模型的新系统。该系统模拟两位历史语言学家就一组语言形态进行辩论,比较真实语言、伪装形态和实验演化出的形态。结果发现,有利于产生更合理形态的因素包括无标度社交网络和随机伯努利采纳。这意味着,社会网络的结构和个体随机采纳新形式的行为在语言演化中起关键作用。
研究还提供了三个案例研究,模拟了有史可查的历史变化,例如检验如果特定历史事件未发生,可能产生怎样的语言形态。这为理解语言变化的偶然性和必然性提供了新视角。
所有代码和数据均已公开,便于其他研究者复现和扩展工作。该研究不仅加深了我们对语言演化的理解,也为计算语言学中模拟现实语言变化的方法论提供了重要参考。