ConlangCrafter:AI 創造想象語言
研究人員開發了 ConlangCrafter,一種能夠生成多樣且一致的構造語言(conlangs)的 AI 模型,性能超越通用大語言模型。該系統通過隨機變化和編輯循環創建遵循指定規則的語言,可免費在線獲取,有望用於自然語言處理研究和語言假設測試。
有超過 7,000 種自然語言仍在使用,但這並不妨礙人們偶爾創造出全新的語言。這些構造語言(conlangs)包括多斯拉克語、克林貢語以及各種精靈語。如今,一種名為 ConlangCrafter 的 AI 模型也能生成新語言,而且表現尤為出色。
在一篇於 6 月 27 日發表在《計算語言學家協會會刊》上的論文中,研究人員分析了 ConlangCrafter 的語言生成能力,報告稱它可以開發出一系列多樣化且始終遵守其規則的新語言。
ConlangCrafter 如何創造新語言
在先前的工作中,加州大學伯克利分校語言學副教授 Gašper Beguš 展示了大型語言模型(LLM)如何像大多數人一樣分析語言。在他最新的努力中,他着手進一步突破 AI 模型的語言界限。
“創造一種完整的語言絕非易事,”Beguš 説,並指出有些人職業生涯都專注於為電影、書籍和視頻遊戲創造人工語言。
但 Beguš 看到了讓 AI 模型能夠創造出超越人類想象的全新語言的額外價值。“模型能夠想象出我們可能想不到的東西,我們可以從中學習很多,”他説。
例如,ConlangCrafter 可以創建具有非傳統通信系統的新語言,例如一種適合頭足類物種的語言,使用顏色和手勢而非聲音。當然,儘管 ConlangCrafter 生成的“色彩語言”並非章魚真正用於交流的語言,但 Beguš 設想這些想象語言可以作為更詳細研究非人類中心語言的手段。
團隊包括卡內基梅隆大學博士後研究員 Morris Alper 和特拉維夫大學博士生 Moran Yankua,他們設計 ConlangCrafter 使其能夠應用廣泛的語音規則(音系學)、詞句結構關係(形態句法學)以及詞彙。
隨機數生成器定期引入變化,使每種語言都不同。內置編輯循環隨後檢查結果中的矛盾並予以修正。用户可以選擇任意規則組合,或讓 ConlangCrafter 自行制定規則。
“模型能夠想象或提出我們可能想象不到的東西,我們可以從中學習很多。”——Gašper Beguš,加州大學伯克利分校
“你可以選擇你想要的任何語言風格,”Beguš 説。“例如,你可以創建日語和世界語的混合語言。”
“目標是語言要具有創造性,因此它們應該彼此不同,”專攻多模態機器學習和計算語言學的 Alper 説。“你還希望它們保持一致,因為語言就像一套規則系統,這些規則不應相互矛盾。”
為了評估多樣性,團隊測量了生成語言在關鍵語言特徵(如句子中使用的基本語序)上的差異程度。為了評估一致性,他們檢查了每種發明語言的翻譯是否正確地遵循了該語言自身的規則。
他們將 ConlangCrafter 生成的語言與通用 LLM(如 Gemini-2.5-Pro)創造的語言進行了比較。“我們的完整系統在多樣性上大約是僅提示 LLM 創造新語言的兩倍,一致性高出近 70%”,Alper 説。
ConlangCrafter 在自然語言處理中的應用
未參與此項工作的卡內基梅隆大學語言技術研究所助理研究教授 David Mortensen 表示,ConlangCrafter 可以幫助自然語言處理研究人員更好地評估語言結構如何影響模型性能。
“有大量研究表明,語言結構——無論是在訓練時還是測試時——確實會影響模型性能,”他説。“然而,這一領域的假設一直很難評估。”他補充説,像 ConlangCrafter 這樣的工具可以幫助以科學可靠的方式促進對語言類型學和詞彙等因素影響的實驗。
ConlangCrafter 可免費在線獲取。其創建者指出,該系統目前在更復雜的語言維度上存在侷限,如語義學、語境和會話使用以及書寫視覺方面。
Beguš 設想擴展這項研究,以探討薩丕爾-沃爾夫假説,該假説認為我們的説話方式影響我們思考和感知世界的方式。例如,這可能涉及模擬不同世界,每個世界都有自己的語言,探索其對社會的影響。“這將是很好的下一步,”他説。