2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

認知範疇變換器：用於語言建模的範疇論歸納偏置

認知範疇變換器（CCT）是一種306M參數的架構，通過在預訓練的GPT-2 Small骨幹網絡上添加源自範疇論和認知科學的組件，在WikiText-103上實現了21.27的驗證困惑度，相比微調基線降低2.92（12%）。消融實驗證實，84%的改進來自GT-Full單純消息傳遞。研究還發現了結構/一致性區分模式。

來源arXiv AI作者: Al Kari

一項新的研究提出了認知範疇變換器（Cognitive Categorical Transformer, CCT），這是一種參數量為306M的架構，旨在通過融合範疇論和認知科學的原理來增強語言建模。該模型以預訓練的GPT-2 Small為骨幹，並集成了多個認知啓發的組件。在WikiText-103數據集上，採用嚴格匹配的步驟數（215,000步）、數據和優化策略進行實驗，CCT達到了21.27的驗證困惑度，而同等條件下微調的GPT-2 Small基線為24.19。這意味着CCT相較於僅進行領域內微調，額外帶來了2.92（12%相對）的困惑度降低。

為了確定性能提升的來源，研究者進行了從零開始的重新訓練消融實驗，在完整的七階段激活調度中繞過了GT-Full單純消息傳遞。結果顯示，該消融模型的困惑度升至23.72，表明84%的架構改進（即2.92中的2.45）可歸因於GT-Full組件。這是首次通過消融驗證的證據，表明在306M參數規模下，單純消息傳遞能夠改進語言模型的困惑度。作為參考，已發表的GPT-2 Large在WikiText-103上零樣本困惑度為22.05，但其參數數量是GPT-2 Small的6.2倍，論文將其視為外部參考而非架構基準。

有趣的是，研究還報告了若干負面結果：一致性風格的範疇先驗（如層平滑、伴隨往返、曲率正則化）並未帶來性能提升。聯合考慮GT-Full和PrecisionWeightedPP的結構先驗結果，研究者總結出一個經驗模式，稱為“結構/一致性區分”（structure/consistency distinction），即增加新拓撲結構的範疇先驗有助於語言建模，而強制執行一致性恆等式的先驗則無益。

該工作為將範疇論和認知科學思想融入大規模語言模型提供了新的視角，並強調了單純消息傳遞在提升模型性能中的關鍵作用。未來研究可進一步探索這些結構先驗在其他任務和模型規模上的適用性。