AI News HubLIVE
站内改写1 分鐘閱讀

本週AI序列 #875:為什麼你的語言模型需要小憩

論文《語言模型需要睡眠》提出,大語言模型存在“順行性遺忘症”,無法在訓練後學習新知識,建議引入類似生物睡眠的機制來鞏固記憶。

來源TheSequence作者: Jesus Rodriguez

在最新的AI研究中,一篇題為《語言模型需要睡眠》的論文引發了廣泛關注。論文作者Behrouz、Hashemi和Mirrokni(來自Google和康奈爾大學)提出了一個發人深省的觀點:當前的大語言模型(LLM)在訓練結束後便停止了學習,就像一塊“聰明的化石”。它們可以憑藉訓練時獲得的知識進行復雜的推理,但一旦涉及訓練截止日期之後的事件,便一無所知。論文將這種現象稱為“順行性遺忘症”——模型保留了訓練前的所有記憶,也能在上下文中處理即時信息,但無法將新知識轉化為長期存儲。

為了解決這一問題,研究者借鑑了生物學的睡眠機制。在生物體中,睡眠有助於將短期記憶鞏固為長期記憶。論文建議,語言模型也需要類似的“睡眠”階段,通過回放和重組已有知識,將新信息整合到模型權重中,從而打破當前靜態的學習模式。這一想法不僅挑戰了傳統的訓練/測試分割範式,也為持續學習和模型更新提供了新的思路。

儘管該論文仍處於理論階段,但它指出了AI領域一個被忽視的瓶頸:模型的“清醒”狀態或許不足以實現真正的學習。如果這一機制得到驗證,未來的AI將能像人類一樣,在“睡眠”中消化經驗,變得更加強大。