探索Word2Vec在道本語上的極限
一項研究使用僅有約130個單詞的人造語言道本語測試了Word2Vec,發現其有效性更依賴於分佈模式而非詞彙量大小。
Word2Vec是一種廣泛使用的詞嵌入生成演算法,它透過神經網路從大規模文本語料中學習單詞的向量表示。儘管Word2Vec在英語、中文等大詞彙量語言中表現出色,但其在極小詞彙量語言上的效能尚未被充分探索。本研究以人造語言道本語(Toki Pona)為測試平臺,道本語僅有約130個核心單詞,旨在考察Word2Vec在極端詞彙環境下的語義捕獲能力。
研究團隊從道本語社群收集了140萬條句子,總計約795萬個詞元。其中,大約23%的句子包含非道本語詞元,如專有名詞、藉詞和新造詞。這些外來詞源被視為語言噪聲。為了評估這種噪聲的影響,研究者訓練了兩個Word2Vec模型:一個保留所有詞元,另一個則過濾掉所有非核心詞元。
評估採用多種方法:首先,透過計算詞向量與語義類別中心的距離來量化語義對齊程度;其次,使用凝聚層次聚類和輪廓分數自動評估聚類質量;最後,透過與英語詞嵌入的相似性矩陣進行定性比較。結果表明,儘管非核心詞元數量稀少,但它們並不改變學習到的嵌入的相對結構,反而將相似詞拉近,增強了語義聚類。更重要的是,Word2Vec的效果主要取決於詞與詞之間的分佈模式,而非詞彙總量。即使在只有130個單詞的道本語中,Word2Vec依然能有效捕捉語義關係。
這一發現對於自然語言處理領域具有重要意義。它挑戰了“詞彙量越大模型越好”的傳統觀點,暗示對於小詞彙量語言(如瀕危語言或特定領域術語)的處理,Word2Vec仍是一個可行的選擇。此外,研究還表明,合理的語言噪聲(如專有名詞)非但無害,反而有助於提升嵌入質量。相關論文已被計算語言學學會(SCiL)2026會議接收,並將於會議上展示。