AI News HubLIVE
站内改写2 分钟阅读

ConlangCrafter:AI 创造想象语言

研究人员开发了 ConlangCrafter,一种能够生成多样且一致的构造语言(conlangs)的 AI 模型,性能超越通用大语言模型。该系统通过随机变化和编辑循环创建遵循指定规则的语言,可免费在线获取,有望用于自然语言处理研究和语言假设测试。

来源IEEE Spectrum AI作者: Michelle Hampson

有超过 7,000 种自然语言仍在使用,但这并不妨碍人们偶尔创造出全新的语言。这些构造语言(conlangs)包括多斯拉克语、克林贡语以及各种精灵语。如今,一种名为 ConlangCrafter 的 AI 模型也能生成新语言,而且表现尤为出色。

在一篇于 6 月 27 日发表在《计算语言学家协会会刊》上的论文中,研究人员分析了 ConlangCrafter 的语言生成能力,报告称它可以开发出一系列多样化且始终遵守其规则的新语言。

ConlangCrafter 如何创造新语言

在先前的工作中,加州大学伯克利分校语言学副教授 Gašper Beguš 展示了大型语言模型(LLM)如何像大多数人一样分析语言。在他最新的努力中,他着手进一步突破 AI 模型的语言界限。

“创造一种完整的语言绝非易事,”Beguš 说,并指出有些人职业生涯都专注于为电影、书籍和视频游戏创造人工语言。

但 Beguš 看到了让 AI 模型能够创造出超越人类想象的全新语言的额外价值。“模型能够想象出我们可能想不到的东西,我们可以从中学习很多,”他说。

例如,ConlangCrafter 可以创建具有非传统通信系统的新语言,例如一种适合头足类物种的语言,使用颜色和手势而非声音。当然,尽管 ConlangCrafter 生成的“色彩语言”并非章鱼真正用于交流的语言,但 Beguš 设想这些想象语言可以作为更详细研究非人类中心语言的手段。

团队包括卡内基梅隆大学博士后研究员 Morris Alper 和特拉维夫大学博士生 Moran Yankua,他们设计 ConlangCrafter 使其能够应用广泛的语音规则(音系学)、词句结构关系(形态句法学)以及词汇。

随机数生成器定期引入变化,使每种语言都不同。内置编辑循环随后检查结果中的矛盾并予以修正。用户可以选择任意规则组合,或让 ConlangCrafter 自行制定规则。

“模型能够想象或提出我们可能想象不到的东西,我们可以从中学习很多。”——Gašper Beguš,加州大学伯克利分校

“你可以选择你想要的任何语言风格,”Beguš 说。“例如,你可以创建日语和世界语的混合语言。”

“目标是语言要具有创造性,因此它们应该彼此不同,”专攻多模态机器学习和计算语言学的 Alper 说。“你还希望它们保持一致,因为语言就像一套规则系统,这些规则不应相互矛盾。”

为了评估多样性,团队测量了生成语言在关键语言特征(如句子中使用的基本语序)上的差异程度。为了评估一致性,他们检查了每种发明语言的翻译是否正确地遵循了该语言自身的规则。

他们将 ConlangCrafter 生成的语言与通用 LLM(如 Gemini-2.5-Pro)创造的语言进行了比较。“我们的完整系统在多样性上大约是仅提示 LLM 创造新语言的两倍,一致性高出近 70%”,Alper 说。

ConlangCrafter 在自然语言处理中的应用

未参与此项工作的卡内基梅隆大学语言技术研究所助理研究教授 David Mortensen 表示,ConlangCrafter 可以帮助自然语言处理研究人员更好地评估语言结构如何影响模型性能。

“有大量研究表明,语言结构——无论是在训练时还是测试时——确实会影响模型性能,”他说。“然而,这一领域的假设一直很难评估。”他补充说,像 ConlangCrafter 这样的工具可以帮助以科学可靠的方式促进对语言类型学和词汇等因素影响的实验。

ConlangCrafter 可免费在线获取。其创建者指出,该系统目前在更复杂的语言维度上存在局限,如语义学、语境和会话使用以及书写视觉方面。

Beguš 设想扩展这项研究,以探讨萨丕尔-沃尔夫假说,该假说认为我们的说话方式影响我们思考和感知世界的方式。例如,这可能涉及模拟不同世界,每个世界都有自己的语言,探索其对社会的影响。“这将是很好的下一步,”他说。