跳過一層還是迴圈它?學習大語言模型中的層程式
研究發現,大語言模型(LLM)的層可以被動態跳過或重複,形成針對每個輸入的定製程式,通常用更少的層就能達到相同或更高的準確率。透過輕量級預測網路,PoLar方法在數學推理基準上持續優於標準推理和先前動態深度方法。
大語言模型(LLM)的傳統推理方式是按固定順序依次透過所有層。然而,普林斯頓大學與谷歌研究院等機構的研究人員提出了一種全新的正規化——Program-of-Layers(PoLar),表明預訓練層可以被視為模組,針對不同輸入動態跳過或重複,從而形成個性化的執行程式。這篇被ICML 2026收錄的論文指出,對於大多數輸入,使用較短的執行程式即可達到甚至超越原始全層推理的準確率,而且原本錯誤預測也可以透過更少層的替代程式得到糾正。這些現象說明推理過程中存在多種有效的潛在計算路徑,遠非標準前向傳播所能涵蓋。為了在現實場景中高效實現PoLar,團隊設計了一個輕量級的PoLar預測網路,它學習為每個輸入生成執行程式,動態決定哪些層應該被跳過或重複。實驗在多個數學推理基準上進行,結果顯示PoLar不僅持續優於標準推理和先前的動態深度方法,而且通常執行更少的層數。更值得注意的是,這種優勢在分佈外評估中依然保持。該研究強烈表明,固定深度的執行只能捕捉LLM潛在推理能力的一小部分,而PoLar能夠更充分地激發模型潛能。模型程式碼已開源。此外,該論文是ICML 2026的接收論文,並大幅擴充套件了arXiv:2507.07996的工作。PoLar方法的核心在於其無需額外訓練,僅透過一個輕量級預測網路即可實現動態層選擇,這為高效推理和模型壓縮提供了新思路。研究人員還發現,不同輸入對應的最佳程式結構差異顯著,有的需要跳過某些層,有的則需要迴圈利用某些層,這種靈活性使得LLM能夠根據任務複雜度自適應地分配計算資源。未來,PoLar有望應用於更大規模的模型和更多樣化的任務中,進一步釋放LLM的潛力。