2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

探索Word2Vec在道本語上的極限

一項研究使用僅有約130個單詞的人造語言道本語測試了Word2Vec，發現其有效性更依賴於分佈模式而非詞彙量大小。

來源arXiv Computational Linguistics作者: Daniel Zhenhan Huang, Hongchen Wu

Word2Vec是一種廣泛使用的詞嵌入生成演算法，它透過神經網路從大規模文本語料中學習單詞的向量表示。儘管Word2Vec在英語、中文等大詞彙量語言中表現出色，但其在極小詞彙量語言上的效能尚未被充分探索。本研究以人造語言道本語（Toki Pona）為測試平臺，道本語僅有約130個核心單詞，旨在考察Word2Vec在極端詞彙環境下的語義捕獲能力。

研究團隊從道本語社群收集了140萬條句子，總計約795萬個詞元。其中，大約23%的句子包含非道本語詞元，如專有名詞、藉詞和新造詞。這些外來詞源被視為語言噪聲。為了評估這種噪聲的影響，研究者訓練了兩個Word2Vec模型：一個保留所有詞元，另一個則過濾掉所有非核心詞元。

評估採用多種方法：首先，透過計算詞向量與語義類別中心的距離來量化語義對齊程度；其次，使用凝聚層次聚類和輪廓分數自動評估聚類質量；最後，透過與英語詞嵌入的相似性矩陣進行定性比較。結果表明，儘管非核心詞元數量稀少，但它們並不改變學習到的嵌入的相對結構，反而將相似詞拉近，增強了語義聚類。更重要的是，Word2Vec的效果主要取決於詞與詞之間的分佈模式，而非詞彙總量。即使在只有130個單詞的道本語中，Word2Vec依然能有效捕捉語義關係。

這一發現對於自然語言處理領域具有重要意義。它挑戰了“詞彙量越大模型越好”的傳統觀點，暗示對於小詞彙量語言（如瀕危語言或特定領域術語）的處理，Word2Vec仍是一個可行的選擇。此外，研究還表明，合理的語言噪聲（如專有名詞）非但無害，反而有助於提升嵌入質量。相關論文已被計算語言學學會（SCiL）2026會議接收，並將於會議上展示。