認知範疇變換器:用於語言建模的範疇論歸納偏置
認知範疇變換器(CCT)是一種306M引數的架構,透過在預訓練的GPT-2 Small骨幹網路上新增源自範疇論和認知科學的元件,在WikiText-103上實現了21.27的驗證困惑度,相比微調基線降低2.92(12%)。消融實驗證實,84%的改進來自GT-Full單純訊息傳遞。研究還發現了結構/一致性區分模式。
文章情報
要點
- CCT在WikiText-103上達到21.27困惑度,比GPT-2 Small基線低2.92。
- 消融實驗表明84%的改進歸因於GT-Full單純訊息傳遞。
- 一致性風格範疇先驗(如層平滑)未帶來提升,支援結構/一致性區分。
為什麼重要
這條新聞值得關注,因為CCT在WikiText-103上達到21.27困惑度,比GPT-2 Small基線低2.92。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
一項新的研究提出了認知範疇變換器(Cognitive Categorical Transformer, CCT),這是一種引數量為306M的架構,旨在透過融合範疇論和認知科學的原理來增強語言建模。該模型以預訓練的GPT-2 Small為骨幹,並整合了多個認知啟發的元件。在WikiText-103資料集上,採用嚴格匹配的步驟數(215,000步)、資料和最佳化策略進行實驗,CCT達到了21.27的驗證困惑度,而同等條件下微調的GPT-2 Small基線為24.19。這意味著CCT相較於僅進行領域內微調,額外帶來了2.92(12%相對)的困惑度降低。
為了確定效能提升的來源,研究者進行了從零開始的重新訓練消融實驗,在完整的七階段啟用排程中繞過了GT-Full單純訊息傳遞。結果顯示,該消融模型的困惑度升至23.72,表明84%的架構改進(即2.92中的2.45)可歸因於GT-Full元件。這是首次透過消融驗證的證據,表明在306M引數規模下,單純訊息傳遞能夠改進語言模型的困惑度。作為參考,已發表的GPT-2 Large在WikiText-103上零樣本困惑度為22.05,但其引數數量是GPT-2 Small的6.2倍,論文將其視為外部參考而非架構基準。
有趣的是,研究還報告了若干負面結果:一致性風格的範疇先驗(如層平滑、伴隨往返、曲率正則化)並未帶來效能提升。聯合考慮GT-Full和PrecisionWeightedPP的結構先驗結果,研究者總結出一個經驗模式,稱為“結構/一致性區分”(structure/consistency distinction),即增加新拓撲結構的範疇先驗有助於語言建模,而強制執行一致性恆等式的先驗則無益。
該工作為將範疇論和認知科學思想融入大規模語言模型提供了新的視角,並強調了單純訊息傳遞在提升模型效能中的關鍵作用。未來研究可進一步探索這些結構先驗在其他任務和模型規模上的適用性。