探索Word2Vec在道本语上的极限
一项研究使用仅有约130个单词的人造语言道本语测试了Word2Vec,发现其有效性更依赖于分布模式而非词汇量大小。
Word2Vec是一种广泛使用的词嵌入生成算法,它通过神经网络从大规模文本语料中学习单词的向量表示。尽管Word2Vec在英语、中文等大词汇量语言中表现出色,但其在极小词汇量语言上的性能尚未被充分探索。本研究以人造语言道本语(Toki Pona)为测试平台,道本语仅有约130个核心单词,旨在考察Word2Vec在极端词汇环境下的语义捕获能力。
研究团队从道本语社区收集了140万条句子,总计约795万个词元。其中,大约23%的句子包含非道本语词元,如专有名词、借词和新造词。这些外来词源被视为语言噪声。为了评估这种噪声的影响,研究者训练了两个Word2Vec模型:一个保留所有词元,另一个则过滤掉所有非核心词元。
评估采用多种方法:首先,通过计算词向量与语义类别中心的距离来量化语义对齐程度;其次,使用凝聚层次聚类和轮廓分数自动评估聚类质量;最后,通过与英语词嵌入的相似性矩阵进行定性比较。结果表明,尽管非核心词元数量稀少,但它们并不改变学习到的嵌入的相对结构,反而将相似词拉近,增强了语义聚类。更重要的是,Word2Vec的效果主要取决于词与词之间的分布模式,而非词汇总量。即使在只有130个单词的道本语中,Word2Vec依然能有效捕捉语义关系。
这一发现对于自然语言处理领域具有重要意义。它挑战了“词汇量越大模型越好”的传统观点,暗示对于小词汇量语言(如濒危语言或特定领域术语)的处理,Word2Vec仍是一个可行的选择。此外,研究还表明,合理的语言噪声(如专有名词)非但无害,反而有助于提升嵌入质量。相关论文已被计算语言学学会(SCiL)2026会议接收,并将于会议上展示。