word2vec到底學到了什麼?
伯克利AI研究團隊提出了一種新理論,揭示了word2vec的學習過程:它本質上是無權重最小二乘矩陣分解,最終表示等同於PCA。模型從小初始化開始,逐步學習正交線性子空間,每個子空間對應一個可解釋的概念。該理論預測了學習特徵的封閉形式,並與實驗高度吻合。
word2vec是一種經典的詞嵌入算法,但其學習過程的定量理論長期以來一直缺失。最近,伯克利AI研究團隊在論文中提出了完整的理論,證明了在現實且實用的條件下,word2vec的學習問題可以簡化為無權重最小二乘矩陣分解,且最終的詞表示等同於主成分分析(PCA)的結果。
該理論的關鍵在於,當嵌入向量初始化接近原點的小隨機值時,模型會以離散的步驟依次學習正交的線性子空間。每一步,嵌入矩陣的秩增加一個,同時損失函數階梯式下降。這些線性子空間一旦學習完成便不再旋轉,因此代表了模型學到的概念。有趣的是,這些特徵可以通過一個由語料共現統計和算法超參數定義的矩陣M*的特徵向量來計算。矩陣M*的元素由詞對共現概率和單字概率決定,其前幾個特徵向量對應可解釋的主題,例如名人傳記、政府行政或地理描述。這意味着word2vec在執行M*的低秩近似,等價於對M*進行PCA。研究者通過維基百科統計驗證了這一結果。
為了達成理論解,論文引入了四種輕微近似:目標函數在原點附近的四階近似、對超參數的特定約束、足夠小的初始權重以及極小的梯度下降步長。這些近似並不涉及數據分佈,因此理論可以預測任意語料下的學習特徵。實驗表明,簡化模型在標準類比任務上達到66%的準確率,接近原始word2vec的68%,遠高於傳統PPMI方法的51%。此外,該理論還用於分析抽象線性表示(如性別、時態)的湧現過程。研究發現,這些表示在學習過程中逐步形成,早期信號佔主導,後期噪聲可能增強,導致表示質量下降。總體而言,這項工作是首個為實際自然語言任務提供完整封閉形式特徵學習理論的研究,為理解更復雜語言模型的特徵學習奠定了基礎。